日本久久99,色婷婷我要去我去也97,久久久久人妻精品一区三寸蜜桃,91人妻在线超碰,亚洲欧洲综合av在线

10月4日,包括Facebook、Ins、WhatsApp 和 Oculus在內(nèi)的一系列服務(wù)群體宕機接近7小時,以致于Facebook高管要到競爭對手的地盤——推特上去發(fā)布聲明、通知,以及道歉。

故障解決后,各種細節(jié)陸續(xù)披露出來,其原因的離奇讓廣大的運維人員不由感嘆:原來Facebook也會出這些不靠譜的低級錯誤啊。

facebook

單點故障

一條很簡單的命令出錯——這是Facebook方面披露的事故最初原因。根據(jù)Facebook工程和基礎(chǔ)設(shè)施副總裁Santosh Janardhan在一篇博客中透露,運維工程師只是根據(jù)日常運維要求輸入了一條命令,目的是評估Facebook全網(wǎng)容量的可用性,結(jié)果卻是“無意中切斷了我們骨干網(wǎng)絡(luò)中的所有連接,有效地斷開了 Facebook 全球數(shù)據(jù)中心的連接。”

Janardhan表示,系統(tǒng)中有一條審核程序可以防止出現(xiàn)類似的錯誤,但很不巧的是,當(dāng)時這個審核系統(tǒng)也出現(xiàn)了問題,導(dǎo)致錯誤的命令被“正確無誤”的執(zhí)行了下去。

這條命令的執(zhí)行結(jié)果也非常簡單:通知Facebook的域名解析服務(wù)器(DNS)刪除Facebook相關(guān)的IP段的路由記錄。從全網(wǎng)評估變?nèi)W(wǎng)刪除,從而導(dǎo)致了Facebook以及相關(guān)的域名無法訪問,全體宕機。

不過這些并不是Facebook史無前例宕機的根本原因。根本原因在于, Facebook雖然準(zhǔn)備了多臺DNS作為備份,但它們都處在子網(wǎng)絡(luò)185.89.218.0/23和129.134.30.0/23。凡是Facebook的解析都需要及經(jīng)過這里,一旦故障,就會導(dǎo)致Facebook及相關(guān)服務(wù)的失聯(lián)。

可以說,過于簡單的DNS配置導(dǎo)致的單點故障才是Facebook此次故障的罪魁禍?zhǔn)住?/p>

電鋸驚魂?

運維宇宙的上古時代流傳這個傳說:高權(quán)限管理員是一把改錐。

在這次Facebook故障中,改錐沒有露面,但是電鋸露了一小臉。在鋪天蓋地的猜測中,《紐約時報》語出驚人:因為數(shù)據(jù)中心安全設(shè)施保護嚴(yán)密,加上系統(tǒng)故障導(dǎo)致門禁不可用,F(xiàn)acebook工程師最后靠一把電鋸打開了大門……

雖然最后辟謠了,電鋸并沒有出場。但現(xiàn)場“物理維護”的艱難并不比遠程維護容易半分。

Facebook表示,因為DNS故障導(dǎo)致無法通過外網(wǎng)進行遠程操作,只好派工程師現(xiàn)場解決問題。但“這些設(shè)施的設(shè)計考慮到了高水平的物理和系統(tǒng)安全性。它們很難進入,一旦您進入內(nèi)部,即使您可以物理訪問它們,硬件和路由器的設(shè)計也很難修改。”

并且,工程師“需要額外的時間來激活讓人們到現(xiàn)場并能夠在服務(wù)器上工作所需的安全訪問協(xié)議”??梢娫阱礄C的7小時中,工程師為解決“物理問題”也花了不小的功夫。

而在技術(shù)圈還有另一個傳聞:在一切解決后,工程師心急上電,結(jié)果導(dǎo)致DNS被瞬間流量沖垮,只好拔掉網(wǎng)線重新開機,才真正的恢復(fù)了服務(wù)。

至此,F(xiàn)acebook的驚魂7小時才算正式結(jié)束,而留給業(yè)界的思考和教訓(xùn)、經(jīng)驗卻會長久的流傳下去。

1、任何能引發(fā)單點故障的環(huán)節(jié)都需要有冗余系統(tǒng),無論看起來是否重要。

2、當(dāng)外網(wǎng)出現(xiàn)問題無法遠程運維的時候,應(yīng)該有可以進行訪問的內(nèi)網(wǎng)通道。

3、一個關(guān)于電鋸的問題:數(shù)據(jù)中心的物理安全措施同樣會受到系統(tǒng)故障的影響,應(yīng)該如何避免安全變成“掣肘”呢?

關(guān)注中國IDC圈官方微信:idc-quan 我們將定期推送IDC產(chǎn)業(yè)最新資訊

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高興

  • 震驚

  • 憤怒

  • 無聊

  • 無奈

  • 謊言

  • 槍稿

  • 不解

  • 標(biāo)題黨
2021-04-23 15:10:17
運維管理 UpTime:供電、系統(tǒng)、網(wǎng)絡(luò)、制冷——2020年數(shù)據(jù)中心宕機四大主因
雖然供電排在數(shù)據(jù)中心故障前列,但網(wǎng)絡(luò)和軟件系統(tǒng)造成的故障往往具有更深遠的影響。 <詳情>
2021-04-13 09:40:40
國內(nèi)資訊 茶顏悅色因促銷活動致小程序宕機
企業(yè)擔(dān)心瞬間流量超過小程序承載量,導(dǎo)致整個系統(tǒng)崩潰。 <詳情>
2020-02-19 10:56:00
國內(nèi)資訊 在線教育抗“疫”太火爆 服務(wù)器宕機打印機脫銷
疫情下的在線教育異?;鸨?億學(xué)生集體上線,導(dǎo)致服務(wù)器時不時地撐不住鬧崩潰。在家辦公的一位老母親,一面要輔導(dǎo)監(jiān)督,一面要搶購打印機,直呼“被逼瘋”。 <詳情>
2025中國智算產(chǎn)業(yè)綠色發(fā)展典型案例征集活動正式啟動
2025-07-16 15:40:26
綠色算力新范式:2025中國智算產(chǎn)業(yè)綠色科技大會即將召開
2025-07-15 11:37:46
AI浪潮下 SUSE如何以開源助力企業(yè)級AI創(chuàng)新
2025-07-07 13:59:47
AI驅(qū)動數(shù)據(jù)中心變革 施耐德電氣發(fā)布EcoStruxure? Energy Operation電力綜合運營系統(tǒng)
2025-07-04 15:15:58
液冷、供配電、WUE、IT能效…工信部新規(guī)落地,數(shù)據(jù)中心PUE之外的考題登場
2025-07-04 10:19:42
阿里云西部云計算中心及數(shù)據(jù)服務(wù)基地項目一期主體建設(shè)完工,即將投產(chǎn)
2025-07-04 10:17:27
南方萬國數(shù)據(jù)中心REIT宣布定價3元/份,獲超百倍認購,7月14日正式發(fā)售!
2025-07-03 16:59:52
綠電直連 vs 綠證 數(shù)據(jù)中心應(yīng)該怎么選?
2025-07-03 16:36:38
迎接關(guān)鍵轉(zhuǎn)型期:中國第三方算力中心服務(wù)商應(yīng)對之道
2025-07-03 16:31:42
觀察|幾萬塊GPU、毫秒級變化……AI算力需求對智算中心供配電沖擊有多大?
2025-07-03 16:27:45
馬來西亞電費新政:取消階梯電價,數(shù)據(jù)中心面臨挑戰(zhàn)與機遇
2025-07-03 16:25:43
總投資約45億元 東方國信內(nèi)蒙古智算中心項目1號樓投產(chǎn)
2025-07-03 16:23:12
2025中國智算產(chǎn)業(yè)生態(tài)發(fā)展大會中交智數(shù)谷(寧夏·中衛(wèi))專場成功舉辦
2025-07-03 16:21:11
總投資1.3億 仙桃小寺垸智算中心項目正式開工
2025-07-03 16:19:13
科智咨詢《2025中國智算產(chǎn)業(yè)生態(tài)圖譜》發(fā)布
2025-07-03 16:17:42