掃二維碼與項(xiàng)目經(jīng)理溝通
我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流
日前,一張網(wǎng)傳公告顯示,唯品會(huì)在3月29日系統(tǒng)出現(xiàn)故障是由于機(jī)房宕機(jī),并判定為P0級(jí)事故,相關(guān)負(fù)責(zé)人被免職。據(jù)悉,當(dāng)日線上商城停止服務(wù)的原因是溫度快速升高造成的機(jī)房宕機(jī),機(jī)房宕機(jī)則是因南沙IDC冷凍系統(tǒng)故障導(dǎo)致。這次故障給唯品會(huì)帶來了不小的損失,影響時(shí)間持續(xù)12個(gè)小時(shí),致使公司業(yè)績損失超億元,波及800多萬客戶。

而且,此次機(jī)房事故不止影響了唯品會(huì)一家,微信、QQ等騰訊旗下社交軟件也出現(xiàn)了功能異常,廣東省政務(wù)云平臺(tái)也出現(xiàn)故障,導(dǎo)致多個(gè)醫(yī)療機(jī)構(gòu)網(wǎng)絡(luò)服務(wù)中斷??梢?,機(jī)房一宕機(jī),后果很嚴(yán)重。
宕機(jī)過載是指一些網(wǎng)站、游戲、網(wǎng)絡(luò)應(yīng)用等服務(wù)器一種區(qū)別于正常運(yùn)行的狀態(tài),也叫“Down機(jī)”、“當(dāng)機(jī)”或“死機(jī)”。
宕機(jī)過載不僅僅是指服務(wù)器“掛掉了”、“死機(jī)了”狀態(tài),也包括服務(wù)器假死、停用、關(guān)閉等一些原因而導(dǎo)致出現(xiàn)的不能夠正常運(yùn)行的狀態(tài)。
宕機(jī)過載原因:
1、由操作員意向操作的重啟,用于維護(hù)或更新服務(wù)器、部署機(jī)房或特殊情況等等。
2、非操作員本身意愿造成的重啟,如供電(欠壓,過載,波動(dòng))、震動(dòng)、硬件質(zhì)量(熱穩(wěn)定性(熱敏度)和抗干擾能力)、資源沖突、DirectX文件的損壞、系統(tǒng)不完善或瓶頸問題、病毒、灰塵、散熱不良……等等原因而造成重啟。
3、由于用戶訪問量過大,造成資源耗盡,或者你網(wǎng)站的數(shù)據(jù)超出你的空間限制范圍大小也會(huì)出現(xiàn)宕機(jī)。
重啟服務(wù)器的好處:
一般來說,如果是正常的重啟是沒有什么壞處,相反,對(duì)于操作系統(tǒng)而言反而有好處。
重啟服務(wù)器可以清除內(nèi)存碎片,重新優(yōu)化軟件調(diào)用級(jí)別,中斷無用的網(wǎng)絡(luò)端口等。
機(jī)房的溫度一般控制在22°C左右,不能太高,也不能太低。一旦機(jī)房的溫度太高,就會(huì)導(dǎo)致機(jī)房設(shè)備宕機(jī)。
持續(xù)的高溫天氣,會(huì)讓制冷設(shè)備超負(fù)荷運(yùn)轉(zhuǎn),自身系統(tǒng)發(fā)熱量過大,很容易引起制冷設(shè)備發(fā)生故障,而導(dǎo)致整個(gè)數(shù)據(jù)中心癱瘓。
高溫天氣,對(duì)供電系統(tǒng)也是一個(gè)考驗(yàn),壓力巨大,可能會(huì)發(fā)生突發(fā)性斷電,這種情況,很可能導(dǎo)致服務(wù)器的硬盤損壞。
UPS電池的壽命跟環(huán)境溫度有很大的關(guān)系,溫度在工作溫度25°C的基礎(chǔ)上,每上升1°C,壽命就會(huì)下降50%。如果灰塵積累太多,還可能引起電池短路。UPS的機(jī)箱內(nèi),溫度過高,可能會(huì)發(fā)生爆炸,引發(fā)機(jī)房火災(zāi)。
不利于設(shè)備運(yùn)行,理由包括但不局限于下列原因:
1)設(shè)備運(yùn)行,會(huì)產(chǎn)生熱量,要散熱,通常由抽氣扇排出熱量,自然新風(fēng)進(jìn)入補(bǔ)充冷卻,顯然,若外界氣溫高,則設(shè)備散熱效率低,設(shè)備故障率增大。
2)若設(shè)備(通常是重要設(shè)備)在空調(diào)環(huán)境下運(yùn)行,則散熱問題轉(zhuǎn)移到空調(diào)設(shè)備。
四個(gè)等級(jí)。
①T1第一級(jí):基本數(shù)據(jù)中心
T1級(jí)的數(shù)據(jù)中心有計(jì)算機(jī)電力配送和制冷,但是它可以或不一定有架高的活動(dòng)地板、UPS或發(fā)電機(jī)?;谶M(jìn)行預(yù)防性檢修和修理的需要,除去緊急狀況,通常每年都要完全關(guān)閉一次基礎(chǔ)設(shè)施。
②T2第二級(jí):基礎(chǔ)設(shè)施部件冗余
T2級(jí)別的機(jī)房配備架高的活動(dòng)地板、UPS和發(fā)電機(jī),并且還有一些冗余組件,相對(duì)T1級(jí)別引發(fā)數(shù)據(jù)中心中斷的可能性更小一些。
③T3第三級(jí):基礎(chǔ)設(shè)施同時(shí)可維修
T3級(jí)別的機(jī)房 可以在不中斷計(jì)算機(jī)硬件運(yùn)行的情況下執(zhí)行計(jì)劃的現(xiàn)場基礎(chǔ)設(shè)施活動(dòng),包括預(yù)防性和程序性維護(hù)、部件的維修和更換、部件容量的增加或調(diào)整以及部件和系統(tǒng)的測試。
④T4第四級(jí):基礎(chǔ)設(shè)施故障容錯(cuò)
T4級(jí)別的機(jī)房要求所有硬件都具有雙電源,其容錯(cuò)能力不僅能確保任何計(jì)劃的活動(dòng)不會(huì)導(dǎo)致關(guān)鍵負(fù)載中斷,還能為基礎(chǔ)設(shè)施提供至少承受一次最壞情況——計(jì)劃外故障或非關(guān)鍵負(fù)載事件的沖擊。
到此,以上就是小編對(duì)于機(jī)房崩潰的問題就介紹到這了,希望這4點(diǎn)解答對(duì)大家有用。

我們?cè)谖⑿派?4小時(shí)期待你的聲音
解答本文疑問/技術(shù)咨詢/運(yùn)營咨詢/技術(shù)建議/互聯(lián)網(wǎng)交流