微軟探索使用液體來冷卻人工智能芯片 - 彭博社
Ian King
數據中心服務器板通過惰性液體浸泡冷卻。
來源:綠色革命冷卻
以納米為單位的組件構成的半導體是現代人工智能數據中心的奇蹟,但在這些設施中一些最重要的機器是風扇。如果不是不斷吹過計算機機架的涼爽空氣,先進的芯片會自己燒燬。運行足夠多的風扇和空調以防止這種情況發生的成本正在導致芯片製造商和數據中心運營商尋找完全不同的做事方式。
這種願望在11月15日展示出來,當時微軟公司宣佈其首次重大進軍人工智能先進芯片製造。其新的Maia 100芯片,旨在與英偉達公司的頂級產品競爭,設計為連接到所謂的冷板,這是一種通過其表面下流動的液體保持涼爽的金屬設備。這種技術可能是完全浸入式冷卻的中間步驟,其中整個服務器機架在專門液體的槽中運行。
連接到新的微軟芯片的冷卻板有兩根管道,一根用於引入冷水,另一根用於排出加熱的液體。來源:微軟必須擔心服務器散熱的人多年來一直知道液冷技術的優勢——水的散熱能力大約是空氣的四倍。一些加密挖礦者已經嘗試過這種技術,一些數據中心已經在將冷板技術應用到為標準空氣冷卻設計的芯片上。渴望從他們的個人電腦系統中擠出性能並減少高功率風扇嘈雜聲的硬核玩家,展示了他們的自定義冷卻系統,其中包括髮光的水管。
但是液冷也有其缺點。水會導電,可能會損壞昂貴的設備,如果不得不直接接觸計算機,則需要使用替代液體。對於許多大型數據中心來説,實施全新的冷卻策略將是一個龐大的基礎設施項目。運營商將不得不擔心,例如,如何防止地板在需要浸沒七英尺高的計算機機櫃的所有液體重量下坍塌。這導致主要數據中心運營商堅持使用風扇,將液冷技術留給了愛好者。
人工智能的大規模計算需求正在改變這個方程式。增加芯片容量的進步會使其需要的電力增加;使用的電力越多,產生的熱量就越多。每個 Nvidia H100 AI accelerator,作為人工智能開發的黃金標準,至少使用300瓦的電力——大約是65英寸平板電視的三倍。一個數據中心可能會使用數百甚至數千個這樣的處理器,每個處理器的成本都超過一個家庭汽車。
冷卻是數據中心最快增長的物理基礎設施成本,根據Omdia Research的一份2023年11月報告,其複合年增長率為16%。據英特爾公司的產品可持續性執行官Jennifer Huffstetler表示,數據中心總用電量中多達40%用於冷卻。她説:“電力是數據中心的頭號限制因素。”與冷卻相關的挑戰導致一些數據中心削減某些類型的組件,留出機架之間的空間,或者降低昂貴芯片的速度以防止過熱。
圍繞微軟新Maia芯片構建的計算機機架,配備了輔助冷卻硬件。來源:微軟微軟的Maia芯片設計為與大型冷卻器配合使用,通過冷板直接連接到冷卻器,循環液體。這使得芯片可以在標準數據中心中運行,微軟表示將於2024年開始安裝這些芯片。微軟的Azure雲部門希望最終使液冷技術成為其所有數據中心運營的更大一部分,Azure首席技術官Mark Russinovich表示:“這是經過驗證的技術,已經投入生產使用。”他坐在家裏的辦公室説:“這項技術已經在生產中使用了很長時間,包括在我的遊戲PC下面。”
在接下來的幾年裏,微軟還計劃開發可以容納浸入式冷卻的數據中心,機架將在冷卻浴中運行。這將比冷板更有效,但也需要對每個級別的設備進行廣泛的檢查。
浸入式冷卻中一個棘手的問題是使用什麼類型的液體。先前的實驗使用所謂的永久化學物質,聚氟烷烷基物質,這些物質不會自然分解。安全顧慮和環境法規導致這些化學物質的使用減少;3M,一家主要製造商,於2022年底表示將停止生產這些化學物質。
微軟尚未透露其系統將使用何種液體。能源公司殼牌公司已經開發了一種將天然氣轉化為合成液體的過程,英特爾表示正在對其進行測試。
其他主要芯片製造商對液體冷卻的計劃仍不清楚。Huffstetler表示,英特爾最近改變了其政策,允許客户構建自己的液冷系統來冷卻特定的英特爾產品,而不會使其保修失效。
為了使數據中心跟上先進人工智能系統的要求,可能需要進行根本性的改革。尋找設施的場所已經變得更具挑戰性,因為一些社區抵制接受提供少量工作機會的耗能工廠。
液冷技術有可能使人工智能成為更好的鄰居,因為它可以成為熱水的來源。Equinix是最大的外包數據中心提供商之一,該公司的運營商之一Jon Lin已經開始實施冷板散熱技術。他表示,該公司將利用巴黎某設施的排水來為2024年奧運會期間的游泳池供暖。—與Dina Bass合作