微軟藍屏至今仍未完全恢復,官方給出反覆重啓 15 次奇葩解決方案!_風聞
kasim188-32分钟前
日前,約有 850 萬台 Windows 設備在啓動過程中遭遇藍屏死機(BSoD)問題,影響到全球眾多銀行、航空公司、廣電企業、超市乃至各類組織機構。網絡安全供應商 CrowdStrike 的更新故障導致受影響的 PC 和服務器離線,設備進入無限重啓的循環且始終無法正常運行。此問題並非由微軟所引發,而是由第三方 CrowdStrike 軟件所造成。目前,這款軟件被全球許多企業廣泛用於 Windows PC 和服務器的安全保護。
1藍屏全球蔓延,至今仍未完全恢復
故障發生最開始,澳大利亞的銀行、航空公司和廣電企業率先發出警報,表示大量 Windows 設備遭遇離線。而隨着歐洲企業陸續開門營業,問題也在迅速蔓延。英國廣播公司 Sky News 就在長達幾個小時的上午時段內無法播放早間新聞簡報,只能通過提示消息稱對“此次廣播中斷”道歉。歐洲最大的航空公司之一瑞安航空也表示,該公司遇到了“第三方”IT 問題並影響到了航班起飛。

受影響的 Windows 設備在啓動時會卡在藍屏中無法繼續。
美國聯邦航空管理局(FAA)表示,受到通信問題影響,他們正在向達美航空、聯合航空和美國航空等航空企業提供協助。空管局發言人 Jeannie Shiffer 在採訪聲明中解釋稱,“空管局正在密切關注此次影響到美國航空企業 IT 系統的技術問題。已經有多家航空公司請求空管局協助其機隊停飛,直至問題得到解決。”
柏林機場也警告稱,受到“技術問題”影響,航班可能會延誤。阿拉斯加的多處 911 緊急呼叫中心同樣受到此問題影響。受 IT 系統中斷衝擊,印度一家航空公司甚至開始使用手寫登機牌。
CrowdStrike 公司 CEO George Kurtz 在 X 上的帖子中指出:“CrowdStrike 正積極與 Windows 主機上個別內容更新中發現的缺陷,與受影響客户開展合作。Mac 與 Linux 主機不會受到影響,且此次事件不屬於安全威脅或者網絡攻擊。”
CrowdStrike 方面還表示,問題已經確定,修復方案也已到位,只是設備的修復流程對 IT 管理員們來説比較麻煩。其根本原因似乎是 CrowdStrike 用於保護 Windows 機器的內核級驅動程序未能正確更新。雖然 CrowdStrike 在“Windows 主機上廣泛報告藍屏死機”後確定了問題所在並恢復了錯誤更新,但對於已經受到影響的設備似乎並不奏效。
在一篇 Reddit 帖子中,數百名 IT 管理員分享了普遍存在的問題,解決方法包括將受影響的 Windows 機器以安全模式啓動、前往 CrowdStriek 目錄並刪除系統文件。但對於某些雲端服務器,甚至是那些遠程部署並使用 Windows 系統的筆記本電腦,這種操作方式顯然難以實現。
一位 Reddit 發帖者表示,“我們整個公司都陷入了癱瘓”,另一位發帖者則提到,他們 70% 的筆記本電腦都無法正常開機、始終卡在啓動循環當中。還有一位 Reddit 用户用黑色幽默的方式高呼“星期五快樂”。看來對於全球 IT 管理員來説,這都將是漫長的一天。
屋漏偏逢連夜雨,微軟的 Microsoft 365 應用和服務似乎同樣發生問題並導致中斷。據稱引發問題的根本原因,是“我們 Azure 後端工作負載的部分配置發生了變更”。
隨着故障不斷蔓延,George Kurtz 於上週五在 NBC 的“今日”節目中表示,公司對受到影響的人“深表歉意”。
但這個問題顯然不是 Control+Alt+Delete 可以快速解決的:Kurtz 警告説,儘管已經部署了修復程序,但“可能還需要一段時間”才能讓所有系統恢復正常運行。
據 InfoQ 瞭解到,在此故障發生了 3 天后的今天,全球仍有不少 IT 系統處於癱瘓狀態。
2微軟奇葩解決方案:關機重啓 15 次即可
就在全世界仍疲於應對這波堪稱有史以來最嚴重的 IT 故障之一的同時,由 CrowdStrike 更新失敗造成的微軟操作系統藍屏死機正在繼續擴大影響範圍。面對嚴峻挑戰,到底該如何應對?微軟給出的答案卻與諷刺喜劇《IT 狂人》中的橋段如出一轍——反覆關機重啓 15 次即可解決問題。
不少 IT 人員在 Reddit 和 Hacker News 等技術社區平台上吐槽,這種解決給了卻又彷彿沒給。

一位網友表示:“在看到微軟給出的解決發方案後,是不是隻有我一個人回想到了很多年以前我們的父親母親不斷地敲打老式 CRT 電視機的側面,讓它顯示圖像的時光?”
更有網友調侃,“如果多次重啓無法解決您的問題,微軟建議檢查您是否已插入電源。”
也有網友表示,之所以發生這種情況,是因為 CrowdStrike 內部各部門嚴重孤立、安全團隊和系統工程團隊之間溝通不暢導致的。在規模較小的公司,同一個人身兼數職,這種情況不太可能發生,除非他們能力極其低下。
有人對此事故表示了同情,但也認為 CrowdStrike 的 IT 人員對於重大更新缺少敬畏心:
“這凸顯了推出更新的責任有多麼艱鉅。當我們推出產品更新時,我基本上都在發抖,尤其是因為 iOS/Android 部署基本上不可能調試。在桌面上我們可以讓人們刪除一個文件來修復 bug,但在移動設備上連這點都幾乎辦不到。
我不知道 CrowdStrike 是否在測試中馬虎了。但很有可能,他們只是在配置過於完美的系統上進行了測試,當它進入現實世界時,它就爆炸了,也許他們的推出沒有循序漸進。
我對此深表同情,但也感到失望。讓你的代碼成為世界上許多系統的核心驅動程序,這是最令人敬畏的責任。”
另一位網友也上述觀點表示贊同:
“確實如此。我已經因為更新而在許多小問題上受了不少苦,現在我非常不願意安裝任何更新。這可能太保守了,但明智的中間立場又在哪裏呢?
有一件事是肯定的:把所有雞蛋放在一個籃子裏可以節省成本,但你以後也會為此付出高昂的代價。”
就像以往每次 IT 系統癱瘓時,外界在分析原因時的關注點不只侷限在 IT 部門身上一樣,此次故障有網友認為是高層決策者的管理失敗造成的。
“這甚至不只是一次技術事故,一般來説,這是糟糕的管理層導致的。很多管理者為了降本提效而採用外包的形式,但他們又不知道到底哪家外包公司更可靠,於是他們總是看着其他公司、抄襲他們,以為他們做得很好。他們就像坐在教室後面的差生一樣,互相抄襲,以為自己很聰明,但卻沒有人聰明得能夠意識到他們所抄襲的都是廢話。”
那麼,遭到全球聲討的“藍屏死機”究竟是怎麼回事?
早在 1993 年,微軟第一次在 Windows 3.0 用户面前展示了藍屏死機(也稱 BSOD)設計。從技術角度來講,藍屏死機的正式名稱應該叫作停止錯誤,具體指那些會導致 Windows 操作系統陷入崩潰的嚴重錯誤。
Action 1 公司聯合創始人 Mike Walters 表示,藍屏死機問題“通常代表出現了內核層級的衝突或者 bug,這類 bug 特別難以診斷和修復,因為其運行在操作系統的最深處,發生在與硬件的具體交互過程當中。”過去,Windows 系統曾經因內存故障以及設備過熱等問題誘發過這類停止錯誤。
微軟於 2021 年 7 月在 Windows 11 系統中將藍屏死機的顏色更改為黑屏,但在同年年底又重新將設計恢復為用户們熟悉的藍色。
弗吉尼亞大學數據科學學院技術史學家兼副教授馬爾·希克斯表示,藍屏死機已經成為一種文化標誌,讓幾乎所有計算機用户都感到恐懼。
希克斯説:“幾乎任何人,無論其計算機水平如何,都知道當你看到傳統老式的藍屏死機時,一定有事情發生了非常嚴重的問題。”
藍屏死機只是事件的結果,本輪全球 IT 中斷的根源在於 CrowdStrike 更新故障。CrowdStrike 自身的官方修復建議是手動以安全模式啓動計算設備,並通過命令行操作來解決問題。微軟方面同樣給出了用户支持建議,為受到 CrowdStrike bug 影響的 Azure 虛擬機用户提供了官方解決方案。

微軟建議反覆關機重啓,最多 15 次。
微軟表示,其“注意到在多次手動重啓虛擬機之後,部分 Azure 虛擬機可通過 CrowdStrike Falcon 代理成功完成更新”。因此建議客户嘗試以下操作:
使用 Azure 門户——嘗試在受影響的虛擬機上執行“重啓”操作。
使用 Azure CLI 或者 Azure Shell。
請注意,在某些情況下可能需要進行多次重啓。
Walters 同時警告稱,“用户通常不需要多次重啓,除非還存在其他潛在問題。有時候,如果系統已經多年沒有重啓,那麼重啓後可能會在啓動階段引發特定問題。由於重啓不正確,數據庫在啓動後可能無法正常工作,進而導致其他問題。”
對於未受到 CrowdStrike 問題影響、但仍然面對藍屏死機問題的用户,微軟則提供了以下建議:
“這些錯誤可能是由硬件和軟件問題所引發。如果您在藍屏錯誤之前向 PC 添加了新硬件,請關閉 PC、移除該硬件,而後嘗試重新啓動。如果您在重新啓動時遇到問題,可以嘗試在安全模式下啓動 PC。您還可以嘗試使用 Windows Update 以獲取最新更新、從其他來源處獲取幫助,或者將 Windows 還原至較早的時間點。”
來源:寶藏姬