保障運算減少能耗 創新液體冷卻技術讓數據中心更環保 | 聯合早報
zaobao
生成式人工智能的發展依賴強大的計算能力,但數據中心卻是用電大户。數據中心業者Sustainable Metal Cloud(簡稱SMC),通過冷卻液體降温、減少輸出的電子數量等方式,在保障運算能力之際,也將打造綠色數據中心,電源使用效率優於資訊通信媒體發展局設立的標準。
設在新科電信媒體(ST Telemedia)數據中心大樓的SMC數據中心“可持續人工智能工廠”,通過微調LLaMa-2-70B大語言模型(LLM),能源消耗比傳統方式所需電力減少了45%,每個節點每月產生的二氧化碳也減少2.21噸。
根據長期以來驅動全球數碼革命的摩爾定律(Moore’s Law),微晶片上可容納的晶體管數量,每兩年翻倍,也就是説微晶片的性能可以提高一倍。近年來在人工智能領域出現的“新摩爾定律”則主張,未來計算能力的提升,將更多依賴於異構計算(heterogeneous computing)、3D晶片堆疊等創新技術,而非僅靠晶體管密度的增加。
SMC聯合創始人兼聯合首席執行官柯蒂斯(Oliver Curtis)指出,英偉達的Blackwell B100圖像處理器(GPU)機架的熱設計功耗(thermal design power, 簡稱TDP)已經高達70kW(千瓦)。然而,全球數據中心基本上都是為容納約10千瓦的機架而建造的,僅有5%的數據中心可以處理至少50千瓦的TDP。
TDP是指中央處理器(CPU)或圖像處理器在運行應用程序達到最大負荷時,可產生的熱量。
延伸閲讀
[新電信與英偉達等籤合作備忘錄 拓展區域數據中心業務
](https://www.bdggg.com/2024/zaobao/news_2024_01_31_661550)
[我國晶片業者Silicon Box成獨角獸 估值超10億美元
](https://www.bdggg.com/2024/zaobao/news_2024_01_10_657173)
柯蒂斯説,SMC在新加坡的數據中心採用液體冷卻技術,電源使用效率(power usage effectiveness,簡稱PUE)僅為1.1。以英偉達的H100圖像處理器為例説,若一個數據大廳全是H100圖像處理器,能耗可高達14千瓦,但在SMC的數據中心,則可降低至7.7千瓦。
H100已成為全球人工智能業界訓練大語言模型和運行生成式AI的熱門圖像處理器選擇。
柯蒂斯説:“如果你能負責任地推廣可持續的人工智能,那你應該確保減少用於模型相同性能的輸出的電子(electron)數量……我們在新加坡擁有最先進的冷卻平台之一。這個平台已證實能在確保一樣性能的輸出時,顯著降低總電子數量。”
根據今年6月發佈的MLPerf(Machine Learning Performance)數據,與傳統風冷數據中心託管的GPU雲相比,參與了GPT-3 175B以及512 H100張量計算核心(Tensor Core)GPU測試的SMC數據中心,可節省最多五成的能源。
MLPerf基準測試是由學術界和工業界共同組成的非營利性組織,旨在建立一個公平、透明且可復現的機器學習性能評估平台。
與德勤合作 以可持續方式推動企業客户接觸人工智能
今年7月,SMC還宣佈與諮詢公司德勤(Deloitte)合作,以最可持續的方式讓企業客户接觸人工智能。
本地數據中心的用電量佔全國總量的約7%。一座數據中心要達到建設局與資媒局的綠色建築標誌白金認證,其PUE至少須達到1.3,數值越低表示效率越高。在此基礎上進一步優化PUE,已成業界追求的目標。我國數據中心容量將在下來幾年增加至少300兆瓦(MW),“綠色數據中心路線圖”將為使用綠色能源的數據中心經營者,額外保留200兆瓦的容量。
我國於2024年5月30日正式推出綠色數據中心路線圖,重點在於繼續在硬件及軟件層面改善能源效率、加速推動數據中心使用綠色能源這兩方面,優化本地數據中心的可持續發展。
為支持具1.3或更低PUE的節能數據中心的發展和運營,資媒局將與業界共同制定要求更高的標準及認證。