機房鋰電池火災致阿里字節新加坡服務癱瘓,超 30 小時滅火仍未結束_風聞
kasim188-27分钟前
9 月 10 日上午,阿里雲因新加坡可用區 C 數據中心發生火災,導致主要科技公司服務中斷,火災原因已確定為鋰電池爆炸。據外媒報道,10 日早上約 8 點發生的機房火災,截至 11 日下午 8 點,已持續 36 小時,仍未完全撲滅。
根據阿里雲發佈的官方聲明,關鍵雲產品受到影響,包括雲數據庫 Redis、MongoDB、RDS MySQL,對象存儲 OSS,表存儲 OTS 以及雲原生大數據計算服務 MaxCompute。阿里雲今日凌晨更新了相關進展,稱大部分受網絡影響的雲產品已恢復正常運行,但仍有部分業務因機房斷電需等待物理條件恢復。
“昨晚 20:23,消防部門仍在現場處理大樓的安全風險,運維工程師正在等待進入機房的許可。如果現場評估顯示不具備原地恢復的條件,應急小組將執行服務器設備的遷移恢復方案。”
此次事件不僅影響了阿里雲的正常服務,還對託管在該機房的其他科技公司,如 Lazada 和字節跳動,造成了嚴重服務中斷。

在 Lazada 以及 TikTok Shop 等電商平台上,賣家反饋無法通過平台接口同步訂單信息;TikTok Shop 的用户也透露,系統故障使得小黃車功能無法正常使用。Lazada 和 TikTok Shop 方面已經對受影響的訂單進行了延期處理。

在社交平台上,報告異常的也不少,部分 TikTok 用户也反饋,新加坡發佈的視頻無法獲得正常流量。


該數據中心不僅託管了阿里雲和字節的服務器,還包括一些其他跨國公司的服務器。有用户報告稱,Digital Ocean、IaaS 服務 Coolify 以及 Cloudflare 出現了宕機或服務降級,似乎與此次火災有關。
有意思的是,AWS 的銷售也趁此機會安利自家服務:

1 機房火災由鋰電池爆炸引發,持續超 30 小時
據當地媒體報道,該數據中心屬於美國數據中心房地產投資信託 Digital Realty 名下。
火災始於當地時間週二上午,有羣眾在事發前聽到爆炸聲,隨後數據中心冒出滾滾濃煙,現場能聞到一股嗆鼻的燒焦味。鋰電池爆炸的威力巨大,瞬間引發了火災,並使得火勢迅速蔓延。
運營該處計算設施的 Digital Realty 公司發言人解釋稱,“2024 年 9 月 10 日上午 7:45,我們發現 SIN11 數據中心觸發火災警報。所有現場人員於 8:15 前安全撤離,事故未造成人員受傷。”
事故發生在數據中心一棟建築的電池室內。新加坡民防部隊(消防組織)發表公告稱,火患波及數據中心三樓閣樓內的兩個電池房、兩個電源房和一個設備儲藏室。

根據報道來看,此次事件滅火的手段包括四個水槍、房內灑水滅火系統、滅火機器人等。為確保火源不再復燃,消防人員也一直留守在數據中心外面,“需要通過降温和澆濕措施來控制連鎖反應”。

但截至 11 日晚,失火的數據中心仍有兩處冒着濃煙。
在火災持續的 30 多個小時裏,滅火工作面臨着諸多挑戰。一方面,鋰離子電池通常用於從智能手機到電動汽車的設備中,此類火災因難以徹底撲滅而著稱。即使初期火焰被撲滅,鋰離子電池的內部化學反應仍會持續生成熱量並提供燃料,導致自燃復燃。另一方面,這類火災會釋放有毒氣體,如氟化氫及其他有害物質,增加了對消防員的風險,也使滅火過程更為複雜。此外,數據中心通常採用封閉式設計,通風條件有限,不利於煙霧的排出,也給滅火工作帶來了困難。
業界對於用水消防抑制鋰電池火災有所爭議,有觀點認為當鋰電池起火時,水分可能導致電池短路,從而加劇火勢。此外,水與鋰電池的正負極材料和電解液發生劇烈反應,產生的氣體和熱量可能引發爆炸,進一步加重火災。
相比之下,全氟己酮作為滅火劑表現出優異的效果,能夠迅速撲滅電池外部的明火。它安全性較高,且對環境友好,噴發後能快速汽化,吸收大量熱量,隔絕空氣中的氧氣,從而實現窒息滅火。
9 月 11 日(昨天)晚 8 點,當地媒體報道稱,消防員仍在現場進行澆濕工作。
而大樓建築結構也受到些許損壞,作為預防措施,建設局將對建築的三樓、三樓閣樓和四樓的一些區域發出危樓令(Dangerous Building Order)和封閉令(Closure Order)。
機房被水淹沒,阿里雲業務受嚴重影響
受到這起火災影響的企業則被告知須啓動災難事態下的業務連續性計劃。

阿里雲的狀態報告稱,該公司於週二 10:20(新加坡標準時間)檢測到新加坡區域 C 可用區發生異常,“導致部分雲服務無法正常運行”。
後續發佈的更新指出,“此次異常是由新加坡數據中心的鋰電池爆炸引發,爆炸導致現場起火及温度升高。”
作為中國雲服務領域的頭部廠商之一,阿里雲聲稱其災難恢復與故障轉移程序已按預期運行,意味着高可用性雲產品達到了承諾的服務水平,但表示部分用户仍須手動將工作負載從受火災影響的可用區遷出。
目前阿里雲方面正在等待數據中心恢復正常,至少部分其他服務和產品則被迫下線。
截至本週二晚 20:04,這家雲服務公司報告稱“火災警報尚未完全消除”,工作人員無法進入着火的建築,數據中心內一些網絡設備“在高温環境下已出現異常”,影響到部分雲產品的網絡連接。
客户收到警告信息,稱“新加坡 C 可用區遭遇網絡完全中斷的可能性正在增加”,通知建議“如果您的業務部署在新加坡 C 可用區,我們將盡快協助您進行業務遷移。”
到週三凌晨 1:46 時,情況開始進一步惡化。
阿里巴巴方面表示,“機房開始出現積水和泄漏,電路存在短路風險”,因此需要對新加坡 C 可用區的一棟建設進行緊急斷電。其他建築的網絡服務則已逐步恢復。
Digital Realty 向媒體證實,截至週三凌晨 1:45,部分電氣系統已經順利關閉。

2 數據中心火災頻發
數據中心是數據存儲和處理的關鍵基礎設施,其安全性至關重要。近年來,全球範圍內發生的數據中心火災已造成巨大的經濟損失。回顧近年數據中心火災事故,顯示出這一問題的嚴重性和緊迫性。
2022 年 8 月,位於美國愛荷華州康瑟爾布拉夫斯的谷歌數據中心發生爆炸,造成 3 人受傷。該數據中心是谷歌最大的數據中心之一,其於 2009 年首次啓用。事故發生後,據宕機追蹤網站 Downdetector.com 數據顯示,美國有超過 4 萬人報告無法使用谷歌搜索。
因電池起火造成的意外事故也並不鮮見。2022 年 10 月,韓國 SK 公司 C&C 板橋數據中心發生火災,大火在大約 8 小時後被撲滅。經調查發現,安裝在地下三層電氣設備室的 5 個電池機架全部燒燬,電池和機架附近似乎因電氣因素失火。
本次火災導致了約 3.2 萬個服務器癱瘓,數千萬用户服務受到影響。數據中心失火後,包括 Kakao Talk 在內的 Kakao 系列服務中斷了一天左右才逐步恢復。火災之後,韓國科技部長官李宗昊就數據中心失火導致網絡平台癱瘓一事致歉,幾天之後,Kakao 聯席 CEO 也因此引咎辭職。
法國雲巨頭 OVH 也曾因 UPS(不間斷電源)起火導致一處數據中心下線。2021 年 3 月,這家法國運營商的 SBG2 數據中心發生了波及整棟大樓的起火事故,導致該區域的 4 個數據中心,一個被完全燒燬,另有一個部分受損。

起火後,癱瘓的法國政府、企業與公共事業網站達到約 360 萬個,一些遊戲開發商在歐洲的業務也受到影響,部分位於該數據中心的服務器被燒燬,其中游戲《Rust》表示,25 台歐洲服務器完全損毀,沒有備份,數據無法被修復。事後,超過 130 名客户加入了集體訴訟,指責 OVHcloud 未盡充分義務,且沒有為受損失的企業提供足夠的賠償。該公司遲遲不披露起火原因,並堅稱必須等待官方報告。
在火災發生一年後,Bas-Rhin 消防局發佈了一份調查報告,強烈批評這家法國運營商的設施。由事故調查報告可知,這座數據中心存在相當多的消防隱患,包括:採用了標稱耐火僅一小時的木質天花板、未配備自動滅火裝置、也沒有通用電氣切斷開關。不過更讓消防人員遺憾的是,這處設施還有一種自然冷卻設計,這也創造了可增加火勢的“煙囱效應”。
來源:寶藏姬