另一場亞馬遜故障暴露了雲計算的陰暗面 - 彭博社
Brad Stone
對於亞馬遜網絡服務部門的工程師來説,這可能又是一個多事的週末。週日下午,位於北弗吉尼亞的亞馬遜美國東部數據中心發生硬件故障,導致一系列流量較大的在線服務出現問題,包括Instagram、Vine、AirBnB以及流行的移動雜誌應用Flipboard。
亞馬遜 將故障歸咎於一個網絡設備的故障——他們稱之為“灰色部分故障”,導致數據丟失——並表示正在進行法醫分析。整個事件持續了49分鐘,但與許多最近的雲服務故障一樣,隨之而來的問題可能會持續更長時間。為什麼這麼多知名網絡公司過於依賴單一的雲服務提供商——以及單一的數據中心?
亞馬遜和其他雲服務提供商宣揚地理冗餘的優點:他們表示客户應該將服務分散到多個數據中心,這樣如果一個數據中心出現故障,另一個可以接手。週日的故障,像許多其他最近的雲服務問題一樣,表明很少有云客户真正遵循這一原則,而真正的冗餘可能比聽起來複雜得多。
亞馬遜工程師 詹姆斯·漢密爾頓 曾經研究過這個問題。“在一個單一設施內,有太多方法可以自毀前程,”他在自己的 個人博客上寫道。雖然他是冗餘的倡導者,但漢密爾頓也承認“隨着驚人的冗餘而來的是驚人的成本。”公司擔心使用備份數據中心會增加他們的開支,並加劇延遲——客户在使用他們的網站或應用時可能會經歷的延遲時間。
另一個問題是,目前對於使用雲服務的公司來説,在多個提供商之間進行風險對沖太困難了。理想情況下,一家公司可能希望從一家企業購買基礎設施服務,但使用其他公司作為備份。主要的雲服務提供商並不熱衷於支持這種互操作性,正如人們所想象的那樣。OpenStack,一個可以接入亞馬遜、谷歌等服務的開源項目,旨在使這一過程更容易。但對於這樣的項目來説,仍然為時尚早,企業客户尚未圍繞它形成共識。
週日停機事件最大的驚訝可能是受影響的對象。Instagram 現在由 Facebook擁有,該公司投入了大量資源來創建自己的全球數據網絡。Vine 由 Twitter 擁有,該公司同樣積累了自己的基礎設施專業知識。兩者可能都有一定程度的冗餘,但顯然還不夠。而且顯然 Facebook 和 Twitter 還沒有將他們最近收購的公司整合到自己的計算網絡中。在週日之後,他們可能會尋求加快這一進程。