一文詳解深度學習冷板式液冷散熱技術規範及要求_風聞
蓝海大脑GPU服务器-水冷服务器、大数据一体机、图数据一体机2022-12-22 12:39

深度學習 | 東數西算 | 液冷散熱
數據挖掘 | 數據分析 | 高性能計算
隨着深度學習、東數西算、醫藥研發、數據分析、數據挖掘、遙感測繪、高性能計算等技術的快速發展,數據中心的創建與日俱增,傳統的風冷散熱方式已經不同滿足數據中心散熱的需求,冷板式液冷散熱逐漸出現在人們的視線中。
注:由於篇幅有限需要更多詳細資料,請在公眾號末尾留下您的郵箱,小編會將PDF文件發您郵箱,共同進步。
氣候變化正給人類生產生活帶來日益嚴峻的挑戰。為在促進經濟繁榮的同時保護地球,聯合國制定了 2030 可持續發展目標,將降低能源碳強度,採取緊急行動應對氣候變化及其影響作為重要內容,推動全球各國提供更多資源和更明智的解決方案。2021 年底發佈的《第五屆聯合國環境大會續會的部長級宣言草案》再次強調,推動綠色轉型,減少碳和非碳温室氣體排放,實現可持續發展目標。
中國高度重視落實聯合國 2030 年可持續發展議程,並基於推動實現可持續發展的內在要求,將生態文明建設明確為國家戰略,宣佈了“碳達峯”和“碳中和”目標,讓綠色低碳成為各行業轉型升級和實現高質量發展的重要方向。在全球落實可持續發展行動,中國積極推進生態文明建設的進程中,5G、人工智能、物聯網等新技術的快速普及應用,在為各行各業高質量發展提供前所未有新動能的同時,也讓作為新型基礎設施的數據中心規模不斷擴大,能耗持續高速增長。據相關估算,全國各類型數據中心用電量總和已約佔全社會用電量的 1.5%-2% 左右,且機櫃規模仍保持高速增長態勢。參照美國勞倫斯伯克利實驗室對美國數據中心產業發展相關研究估算,在不採取相關措施的情況下,數據中心總用電量有可能翻倍甚至更高。
面對不斷增長的能源消耗與經濟社會可持續發展的雙重壓力,加速數據中心運營模式的綠色轉型成為當務之急。2021 年 5 月,國家發改委等四部委聯合發佈《全國一體化大數據中心協同創新體系算力樞紐實施方案》,將綠色低碳列為基本原則,強調通過創新技術全面提高其能源利用效率;同年 7 月,工信部印發《新型數據中心發展三年行動計劃(2021-2023 年)》,明確提出新建大型及以上數據中心電能利用效率(Power UsageEffffectiveness,PUE)降低到 1.3 以下。2022 年 1 月,國務院印發“十四五”數字經濟發展規劃,隨後國家發展改革委會同相關部門推進“東數西算”工程實施,強化數據中心綠色發展要求,強調大型、超大型數據中心 PUE 降到 1.3 以下,並在給多個算力網絡國家樞紐節點啓動的覆函中,都將 PUE 指標控制在 1.25 以內。
在政策拉動以及數據中心降本增效等自身需求的驅動下,整個 ICT 產業積極採用創新技術和模式,圍繞降低 PUE 這一關鍵指標,通過推進基礎設施智能化、創新和採用製冷散熱技術,以及提升能效與供電密度等系統化措施和多元化的技術與解決方案,綜合性地創新數據中心高效節能體系,推動數據中心全生命週期降耗增效。
深度學習冷板式液冷解決方案
眾冷板液冷生態夥伴以“創造改變世界的技術,改善地球上每個人的生活”為宏旨,在不遺餘力地通過將可持續納入產品設計、生產、使用全生命週期,系統化減少碳足跡的同時,聚力攜手更廣泛的產業夥伴開放創新,基於在數據中心可持續發展上構建起的完備解決方案矩陣,重點聚焦的數據中心機架電源設計、先進冷卻技術和數據中心智能節能三個垂直領域,充分應用芯片、服務器、機架、數據中心四個水平方向的技術方案和豐富案例,繼續深入實踐,全方位、立體化推動數據中心不斷實現能效優化和低碳轉型。同時,還將繼續與各界夥伴協同推進數據中心功率密度演進、液冷技術應用與設計等標準和規範建設,助力構建長效機制,引導數據中心加速邁向高效、清潔、集約、循環的綠色發展新紀元。
由英特爾推出的《綠色數據中心創新實踐——冷板液冷系統設計參考》是產業生態夥伴緊密合作、聯合創新的重要成果之一,內容涵蓋液冷一次側及二次側整個鏈路的設計,旨在與冷板液冷生態夥伴及潛在使用者分享對於冷板液冷技術關鍵部件設計選型的考量,其付梓發佈也是要通過面向更廣泛的產業夥伴展現冷板液冷技術關鍵部件的研究進展,來共同促其標準化,進而降低其設計與使用成本,推動建立並完善冷板液冷的生態系統,為推進數據中心行業加速脱碳轉型,並以此支持各行各業實現低碳發展,共同為中國實現碳達峯、碳中和目標而做出新的貢獻。
本文對參與冷板散熱系統設計、驗證、管路的連接組裝、系統的檢測及維護人員均具有參考意義。

冷板式液冷整體鏈路圖
數據中心發展****趨勢
隨着雲計算、大數據、人工智能等新一代信息技術快速發展,數據呈現爆炸式增長。作為儲存和計算基礎設施的數據中心加速建設是大勢所趨。
一、數據中心總體能耗不斷抬升
隨着數字經濟在人類活動中的佔比逐漸增加,信息數據量激增,與之對應的數據分析、處理能力不斷提升,使得服務器的密度越來越高,導致數據中心產生熱量日益增多。據行業數據報告顯示,預計未來 5 年,其仍將以 15%~20% 的速率持續增長,也將使未來數據中心行業用電佔社會總用電量的比率進一步提升。
作為“新基建”的引領行業,數據中心是以技術創新為驅動和信息網絡為基礎的高質量發展行業,在為社會和工業的數字轉型、智能升級、融合創新等服務提供基礎設施體系的同時,快速增加的能源消耗也帶來熱點地區局部能源的稀缺和地域之間的不均衡。在北上廣這些核心地區,很多潛在項目面臨有房無電的窘境。因此,作為單體能源消耗密度高的行業,數據中心必須以綠色低碳、節能減排來應對快速發展帶來的挑戰,才能實現健康可持續發展。
根據相關國家政策要求,在未來佈局的算力樞紐 8 大節點中,東部數據中心 PUE 需要降低到 1.25 以下(包括華南地區),西部地區的數據中心 PUE 要求在 1.2 以下,且要求製冷系統採取新的解決方案。
二、功率密度隨需求不斷提高
近年來,數據中心單位空間產生熱量的瓦數正在不斷上升,同時功率密度也在增加,嚴重製約了傳統冷卻方法和技術的進一步應用和推廣。因此,液冷作為數據中心新興的製冷技術,逐漸被人們接納並應用。
Uptime Institute 發佈的《2020 全球數據中心調查報告》顯示,2020 年全球 71% 的數據中心平均功率密度低於 10kW / 機架,最常見是 5~9kW / 機架,平均單機架功率為 8.4kW / 機架,平均功率密度高於 20kW / 機架的數據中心約佔 16%。雖然整體功率密度相較於高性能計算(HPC)等領域還不算高,但總體上升趨勢明顯,相比於2017 年的 5.6kW / 機架、2011 年的 2.4 kW / 機架增長顯著。而且宏觀上看,數據中心未來的功率密度還將繼續上升。
造成這一趨勢的原因主要有兩個方面。一是從應用層面來看,計算密集型應用場景的激增,加上雲業務廣為互聯網頭部企業採用,導致承載這些應用負載的服務器設備功耗大幅增加,進而使得數據中心設計功率密度呈現逐年增大的趨勢。另外一個原因來自 IT 硬件層面。為了滿足高算力負載需求,通過單機架疊加多核處理器提高計算密度,導致了 IT 硬件的處理器功耗顯著增加,也使得單機架功率密度越來越高。比如,從當前佔據全球服務器 CPU 主要市場的英特爾® 架構處理器看,英特爾® 至強® 可擴展處理器 TDP(熱設計功耗)從 2019 年的 205W 上升了到達現在的 270W,在 2023 年初將達到 350W,提升近一倍。而這在提供強大算力的同時無疑也帶來散熱困擾,而解決了散熱瓶頸就意味着實現算力提升。
數據中心液冷散熱****解決方案
採用風冷的數據中心通常可以解決 12kW 以內的機櫃製冷。隨着服務器單位功耗增大,原先尺寸的普通服務器機櫃可容納的服務器功率往往超過 15kW,相對於現有的風冷數據中心,這已經到了空氣對流散熱能力的天花板。而液冷技術作為一種散熱能力更強的技術,可以支持更高的功率密度。
一、液冷的優勢
**1、滿足高功率密度機櫃的散熱需求。**液冷的高效製冷效果有效提升了服務器的使用效率和穩定性,同時可使數據中心在單位空間佈置更多的服務器,提高數據中心使用效率;
**2、循環系統耗能少,系統噪音小。**使用高比熱的液體工質,冷卻工質循環能耗少,且液冷簡化了換熱流程,也減小了風冷末端在房間輸送冷風過程中受湍流影響所致的部分能量衰減的問題;
**3、佔地小,易於選址。**使用液冷系統的數據中心相對於傳統的風冷數據中心更加簡單,去掉了龐大的末端空調系統,提高了建築利用率,在小空間裏也能佈置足夠規模的服務器,應用場景更易佈置,受地理位置影響較小,全國佈局皆可實現低 PUE 運行;
**4、降低 TCO,運營 PUE 較低,全年 PUE 可達到 1.2 以下。**採用液冷散熱方案的數據中心 PUE 比採用風冷的常規冷凍水系統降低 0.15以上,可讓有限的能源更多分配給算力,從而降低運行成本,增加算力產出;
**5、餘熱回收易實現。**相比傳統水温,使用液冷方案的水温更高,温差大,熱源品味和餘熱系統效率高;
**6、適應性強。**冷板式液冷兼容性強,易配套開發,不需改變原有形態和設備材料;空間利用率高,可維護性強,佈置條件與普通機房相近,可直接與原製冷系統(常規冷凍水系統)兼容適應。
基於冷板液冷解決方案的一次側系統
對於液冷二次側末端不同的水温需求,液冷一次側冷源可採用機械製冷系統和自然冷卻系統。機械製冷系統包括風冷冷凍水系統和水冷冷凍水系統,可提供 12℃-18℃ 的中温冷凍水;自然冷卻是在室外氣象條件允許的情況下,利用室外空氣的冷量而不需機械製冷的冷卻過程,自然冷卻系統可採用開式冷卻塔、閉式冷卻塔和乾冷器等設備實現,可提供 30℃ 以上的冷卻水。液冷一次側冷源形式需結合二次側末端水温需求和項目地室外環境情況確定。
一、機械製冷系統
1、風冷冷凍水系統
風冷冷凍水系統是冷凍水製備的一種方式,主要由風冷冷水機組、冷凍水泵及配套設施組成,其液態製冷劑在其蒸發器盤管內直接蒸發,實現對盤管外的冷凍水吸熱而製冷,並通過風冷的方式冷卻為液態。
風冷冷凍水系統不需要佔用專門的機房且無需安裝冷卻塔及泵房,初期成本投入較低、運行方便,不需要專業人員維護,無冷卻水系統,具備節水和降低維護費用等優點。但風冷冷水機組一般裝在室外,運維環境相對較為惡劣,維護性及可靠性均不如水冷冷水機組,並且風冷機組在夏季高温製冷效果較差,運行效率較低。
2、水冷冷凍水系統
水冷冷凍水系統是冷凍水製備的一種方式,主要由水冷冷水機組、冷凍水泵、冷卻水泵、冷卻塔及配套設施組成,其液態製冷劑在蒸發器盤管內直接蒸發,實現對盤管外的冷凍水吸熱而製冷,並通過水冷的方式冷卻為液態。
水冷冷凍水系統具有耗電量較低、全年製冷效果好、可靠性高和使用壽命長的優點。但其需要專用機房、冷卻塔、冷卻水泵、冷凍水泵等設備,初投資較大,並且需要循環水,水資源消耗大,且機組本體和冷卻設施需要維護,相較於風冷機組,其維護費用比較高。
二、自然冷卻系統
1、開式冷卻塔
開式冷卻塔經過將循環冷卻水直接噴淋到冷卻塔填料上,同時由風機帶動冷卻塔內氣流流動,通過室外空氣與冷卻水之間的熱質交換蒸發冷卻循環水,冷卻後的循環水在冷卻塔底部出水。開式冷卻塔中循環冷卻水與室外空氣存在熱質交換。

開式冷卻塔示意圖
開式冷卻塔初投資和運行成本均較低,佔地面積較小,重量較輕,但其運行水質較差,易引起被冷卻換熱器結垢,適用於室外空氣品質較好的區域。另外,雖然可增設一級板式換熱器和冷卻水泵來避免核心換熱器結垢,但對應系統較為複雜,初投資提升。
2、閉式冷卻塔
閉式冷卻塔是將管式換熱器置於塔內,通過室外流通的空氣、噴淋水與管內的循環冷卻水進行熱交換而實現向大氣散熱的設備。閉式冷卻塔有內循環和外循環兩個系統,其內循環通過與被冷卻設備對接,構成一個封閉式系統,將系統熱量帶到冷卻塔,也即內循環水通過換熱盤管將熱量傳遞到大氣中;外循環由循環噴淋泵,布水系統、集水盤及管路組成,外循環水不與內循環水相接觸,只是通過冷卻塔內的換熱器吸收內循環水的熱量,然後通過和空氣直接接觸來散熱。

閉式冷卻塔示意圖
閉式冷卻塔的水質較好,被冷卻換熱器不易結垢,壽命長,應用在室外環境質量差且對循環水質要求高的場合優勢明顯;但閉式冷卻塔初投資和運行成本均較高,佔地面積大,重量較重。
3、乾冷器
乾冷器即乾式冷卻器,其工作過程沒有水的消耗,是通過管內走液體與管外走自然風來冷卻管內液體,降低管內液體温度,達到冷卻的目的。乾冷器中的載冷劑通常使用乙二醇溶液,需要根據項目地冬季極端温度選取溶液濃度。
乾冷器示意圖
乾冷器沒有壓縮機,總體耗電量低,機組使用壽命長,初投資比風冷冷水系統和水冷冷水系統低,但其一般安裝在室外,運行環境相對惡劣,且在夏季炎熱散熱較差的區域,需配置水噴淋冷卻系統或濕簾系統增強換熱,導致佔地面積增大。
三、一次側系統應用場景
在冷板式液冷系統中,發熱器件不直接接觸液體,而是通過與裝有液體的冷板直接接觸來散熱,或者由導熱部件將熱量傳導到冷板上,然後通過冷板內部液體循環帶走熱量。由於服務器芯片等發熱器件不用直接接觸液體,所以該方式對現有服務器芯片組件及附屬部件改動量較小,可操作性更強,成為目前成熟度最高、應用最廣泛的液冷散熱方案。
二次側相對穩定,通過冷卻液分配單元(CDU)及後面的系統架構進行配置。一次側可以考慮多種的使用條件和場景進行組合。按照製冷的方式,主要分成機械製冷和自然冷卻製冷,同時結合國內情況,進行劃分如下:

一次側和二次側供液温度的參考值
一次側冷源有多種組成形式,需根據當地室外環境温度(包括幹球 / 濕球温度)及液冷服務器的進液温度,確定是否需要下調水温;另外供水温度應比室內露點温度高出 2℃~3℃左右,以防結露。
1、方案一:冷水機組 + 冷卻塔(開式)+ 板換
在高熱高濕地區,機房環境温度要求高,直接採用閉式冷塔 / 乾冷器無法直接滿足供冷要求,需要輔助機械製冷裝置;冷源通常採用冷水機組 + 冷卻塔的聯合供冷的方式,此結構適應性強,效率高,但耗水量較大,不適合缺水的地區。

冷塔 + 水冷冷機 + 板換系統示意圖
系統根據室外温度變化分成兩種模式:
模式一:室外温度較低,無需冷機開啓,僅憑冷塔 + 板換即可滿足製冷要求。
模式二:冷塔出水水温高於 CDU 需求,需要機械降温補冷,形成冷塔 + 冷機的組合形式。
2、方案二:風冷冷水機組
風冷冷水機組將冷凝器、水泵、壓縮機等部件合成整體,且通常配置乾冷器(免費冷源模塊),集成度高;但是無法利用水的蒸發潛熱,系統能效低,適合系統偏小環境以及缺水地區。

風冷冷水機組示意圖
使用模式與場景 1 相近,也具備兩種模式:
模式一:室外温度較低,無需冷機開啓,僅憑免費冷源模塊即可滿足製冷要求。
模式二:免費冷源模塊無法滿足 CDU 的温度要求,需要機械降温補冷,則直接使用風冷冷機形式。
3、方案三:閉式冷卻塔 / 乾冷器
對於當地氣温全年較低,可採用閉式冷塔/乾冷器直接供冷,全年無需機械製冷。

閉式冷卻塔/乾冷器液冷系統示意圖
閉式冷塔和乾冷器使用模式基本相同,閉式冷卻塔系統仍以蒸發散熱為主,可以輸出更低的温度,循環系統水質較好,對於 CDU 或者其它換熱設備友好,只是耗水量大。乾冷器體積較大,單機制冷量偏小,但容易佈置,配置上濕膜,還可以部分使用蒸發冷卻。
該系統也分成兩種模式:
模式 1:幹模式,無需通過水蒸發散熱。
模式 2:濕模式,系統需要通過噴水蒸發的潛熱帶走熱量,閉式冷卻塔此時和開式冷卻塔相同。乾冷器通過進風口的濕膜初步降温,再進行二次降温。
4、方案四:開式冷卻塔
開式冷卻塔製冷模式與閉式冷卻塔完全相同,只是開式冷卻塔水路與大氣相通,水質較差。

開式冷卻塔冷卻示意圖
上述方案以液冷側需求為主要考量因素。冷板液冷機房在實際運轉過程中,液冷系統往往仍然需要配備少量空調使用,以滿足服務器中非液冷部件的散熱需求。

一次側冷源建議方案
二次側冷****液冷板概述
二次側液體迴路是指從冷量分配單元到機架,通過供回冷卻工質歧管和 IT 設備連接,然後再通過歧管返回冷量分配單元的設計。來自二次側冷卻迴路的熱量通過冷量分配單元的板式熱交換器傳遞到一次側冷卻迴路,最終排放到大氣中或被熱回收再利用。
隨着 IT 設備功率密度的增加,需要更高效的冷卻技術來滿足日益增長的算力需求。與傳統的風冷相比,液冷方案提供了更加高效的冷卻效率。而何時轉換到液冷取決於許多不同的因素,例如包括散熱性能需求、電力配備、PUE 要求、IT 設備密度、冷卻成本,以及將來的 IT 設備的性能需求和部署策略等等。另外,是改造現有設施還是重新建造新的數據中心機房, 也需納入 TCO 的考量範圍。
採用液體冷卻的一個直接原因是,傳統的風冷方案已經無法滿足 IT 設備的散熱需求,故而需要新的方案提升冷卻能力。對於 CPU 和GPU 等高功耗元器件,究竟何時或在何種功率水平下需要液體冷卻,目前尚無通用指南,不能一概而論。但應注意的是,除了成本分析外,還需要了解液冷方案的一些設計考量,比如冷卻迴路中的所有浸潤材料與所使用的冷卻工質相容並保持長期可靠性,使用的冷卻工質不能與任何其他冷卻工質混合使用等等。
液冷部件****設計考量
一、冷卻工質
二次側冷卻迴路中常用的冷卻工質包括水基冷卻工質和非水基冷卻工質。其選擇需要在滿足冷卻性能需求的同時,還應滿足二次側冷卻迴路中所有浸潤材料的相容性和長期可靠性,並同時考慮IT設備及冷卻工質本身維護的便利性、使用預期壽命及液體的成本等綜合因素。
每種液冷冷卻工質都有不同的優點和缺點,下面表中有詳細介紹。水基冷卻工質具有良好的傳熱性能,其中的純水液通過維持超低電導率環境抑制浸潤材料的腐蝕和微生物的滋生;配方液通過緩蝕劑和殺生劑的添加劑降低浸潤材料的腐蝕風險和抑制細菌生長。但這些添加劑會降低水的熱傳導性能,也存在因消耗而失去作用的問題,所以需要研究對整體性能的潛在影響和品質監測方法。
水的另一個特性是常温常壓下其冰點是 0°C。因此,需要考慮其工作環境温度範圍以及是否滿足操作、運輸和儲存期間的要求,通常使用的防凍劑包括丙二醇和乙二醇。但隨着冷卻工質中丙二醇或乙二醇含量的增加,會造成冷卻工質粘滯係數過高,對熱性能造成部分衰減,同時水泵的揚程需要提高,導致水泵功耗提升。因此,瞭解操作温度及儲存和運輸過程的温度要求非常重要,不要添加太高比例的丙二醇或乙二醇,25% 及以上的丙二醇或乙二醇溶液,即具有一定的抑制液體中細菌生長的功能。另外,通常冷卻工質使用防凍劑首選丙二醇。丙二醇比乙二醇毒性小,在自然環境中分解速率也更快。少量的丙二醇甚至被用作食品工業的添加劑,具體優缺點見下表。
為了減低液冷系統在運輸過程中的腐蝕和污染的風險,IT 設備或機架可以預先充入合適的冷卻工質或惰性氣體加以保護。在系統現場裝配時,除了按照製造商提供的裝配操作流程,還應考慮在系統運行之前沖洗預充的液體及充分排除系統內部的氣體。此外,必須定期檢測液冷冷卻工質,尤其是配方液的品質以瞭解其成分變化。
非水冷卻工質主要是礦物油或合成油、介電液體和冷媒。礦物油或合成油類工質因其粘度、粘性和易吸濕水解等問題不作推薦;介電液體有單相和兩相兩類,沸點較高的液體通常用於單相冷卻,沸點較低的液體通常用於相變冷卻。介電液體的一個優點是,在發生潛在泄漏時,液體本身是電絕緣體(低導電率),一般不會造成 IT 設備的電子電路短路。介電液體通常密度更高,成本也比較貴,同時針對某些介電液體需要考慮全球變暖潛能值(GWP)的影響,這些因素必須在選擇冷卻工質時予以充分考慮。除介電液體外,冷媒也可用於兩相冷卻。冷媒具有相對較低的沸騰温度,允許液體相變並蒸發,可以通過改變工作壓力來改變飽和温度。

水基冷卻工質優缺點

防凍液優缺點

介電液體優缺點

冷媒優缺點
1、浸潤材料
浸潤材料是指其表面與冷卻工質直接接觸的材料,必須和冷卻工質之間具備相容性,以將冷卻迴路中潛在的腐蝕風險和泄漏風險降至最低。因此,詳細瞭解所有冷卻部件和所使用的材料至關重要,需要和所有浸潤材料部件及液體供應商建立密切合作,確保材料的相容性。ASHRAE 提供的列表只是一個初步的建議,隨着新設計及新材料成分引入,它將繼續完善和更新。需要注意的是,該列表並不是對所述材料相容性的承諾,具體材料的選擇,仍然需要通過測試來確定。
2、過濾裝置
過濾裝置就是用於彌補冷卻工質品質和系統腐蝕可能帶來的風險的專門功能組件,用於防止因顆粒物、碎屑和細菌污染而引起的操作可靠性問題。顆粒物是微觀的,通常以微米為單位進行測量。
過濾裝置的主要作用是為了防止顆粒物積聚污染系統部件,尤其是在冷板液冷中,還與微通道冷板內的翅片陣列寬度、熱交換器板間隙寬度及快換接頭結構都有關。在這些地方,顆粒物污染可能導致堵、性能降低、泄漏或系統故障。過濾裝置的位置是系統設計者需要考慮的一個問題,過濾裝置工作會影響系統壓降,而良好的設計旨在儘可能地減少過濾器的壓降從而提高系統冷卻效率。可根據開式系統或密閉式系統選擇過濾裝置的精度。設計者應考慮維護的便利性,這包含計劃週期性的維護和計劃外的突發維護干預,使用冗餘設計來保障液冷系統實現在線維護。
3、冷卻工質要求
冷板使用的冷卻工質應滿足如下要求,即冷卻工質應具有良好的熱力學性能,不同冷卻工質的物性參數參見中國國標 GB / T 15428-1995的附錄 A 及 YD / T 3982-2021 中第 4 章和第 6 章的要求。
4、冷卻工質選擇考量指標
冷卻工質液體具有不同的熱性能,在評估不同液體的熱性能時應對此予以重視。下表中顯示了液體評估時的重要參數。按照液冷裝置部署所在地的地理位置和氣候條件,這些參數需要綜合考慮。

冷卻工質液體熱性能參數
二、冷板的設計與驗證
冷板的選擇取決於散熱要求、成本要求、操作參數及使用的浸潤材料等因素。二次側冷卻迴路中與冷卻工質接觸的所有部件所使用的材料必須要和冷卻工質的浸潤材料清單(WML)相符。根據需要被冷卻的元器件不同的温度要求、冷卻工質參數,例如流速、温度和傳熱特性,冷板設計複雜難度也不同。例如,常用的微通道冷板結構比較複雜,其中微通道主要是增加與液體接觸面積,以提高冷卻性能。而更簡化的冷板設計是帶有簡易內部流體通道的模塊。
隨着設計複雜性的增加,成本也隨之增加。因此,如果使用簡單的設計就可以滿足冷卻需求,那就不需要通過增加設計的複雜性,來獲得更高的冷卻性能。

冷板示意圖(分體式)
1、冷板設計考量指標
在設計冷板時,需要考慮不同的參數,這些參數如表 8 所示(通常使用熱界面材料(TIM)來增強需要冷卻的部件與冷板之間的傳熱性能,這裏不展開討論)。同時,還需要考慮冷板與內部液體迴路管道的物理連接。對於微通道冷板設計,也有一些重要參數,其中翅片之間的間距是確定過濾裝置孔目大小設計要求的一個重要參考參數,為避免污垢堵塞,建議液體中顆粒尺寸不大於 50μm。

冷板設計考量參數
2、冷板設計要求
冷板設計滿足如下要求:
應根據芯片的型號尺寸及電子信息設備的內部結構進行設計,以獲得更好的換熱效率;在滿足芯片整個使用週期內的殼温要求下,儘可能優化流道設計,減小冷板模塊的流阻;
應保障滿足芯片插座的載荷要求及芯片對散熱器重量的要求;
應考慮配管位置、方向及液體進出口位置,避免與電子信息設備產生結構干涉;
冷板基板和流道宜採用銅或鋁合金材質,一個系統中不應有兩種電位差較大的金屬;
應考慮冷板的安裝及拆卸順序,滿足芯片的操作要求;
應滿足芯片的扣合力技術要求,及安裝/拆除後散熱器底面平面度的技術要求;
冷板接口設計應考慮冷板最大允許壓力和安全餘量,並考慮拆裝冷板組件時可能產生的接口應力等問題;
如使用配方液冷卻工質,緩蝕劑配方必須與冷板選用材質相匹配,併兼顧整個系統的材質匹配問題;
冷卻工質的選用應考慮與二次側循環迴路中所有直接接觸的固體表面材質間的相容性。
3、冷板熱性能要求
冷板熱性能應滿足如下要求:
冷板使用者應提供冷板入口處冷卻工質的温度和流量條件;
待冷卻芯片的殼温在整個使用期間不應超過芯片供應商規定的最大殼温值;
二次側冷卻環路總的流阻需要適配冷量分配單元循環泵工作點揚程能力;
系統總的流阻容量選擇以及待冷卻芯片的殼温需要考慮一定的冗餘,流阻容量的冗餘宜不小於 10%,殼温冗餘宜不小於 3℃,以便滿足系統的容差需求;
冷板設計者宜提供冷板使用的熱邊界條件曲線,即入口處冷卻工質温度與流經冷板的冷卻工質流量之間的依存關係。圖中給出了冷板設計的熱邊界條件曲線。當冷板使用邊界條件(入口流量及入口温度)位於曲線下方(含曲線)的任一邊界條件(冷板入口處冷卻工質的温度及其流量)時,該冷板的冷卻能力即可滿足待冷卻芯片的最大殼温要求。可同時參考冷板熱阻與冷板流阻曲線示意圖;
冷板入口處冷卻工質流速不宜高於 1.5m/s,冷卻工質供回液温差宜控制在 5℃-10℃ 範圍內。

冷板設計熱邊界條件曲線
4、冷板熱性能測試
將冷板鎖固在待測芯片上,冷板的液體進出口與熱性能測試系統相連,同時確保測試環路中非凝性氣體排空,並將流經冷板的液體流量調節到期望值,給待測芯片施加期望的功耗;待測試結果穩定後,記錄冷板進出口的壓力值、待測芯片的殼温、冷板入口液體温度、給待測芯片施加的功耗值,以及流經冷板的液體流量值。依據測試結果,分別依據式(1)和式(2)計算冷板在一定的流量範圍內的熱阻值和流阻值,繪出冷板的熱性能曲線和流阻曲線。
R=(Tc - TL) ⁄ Q ………………………………(1)
R——冷板熱阻,單位為(℃/W)
Tc——待冷卻芯片的殼温,單位為(℃)
TL——冷板入口液體温度,單位為(℃)
Q——施加在芯片上的功耗值,單位為(W)
ΔP=P1 - P2………………………………………(2)
ΔP——流經冷板的流阻值,單位為(KPa)
P1——冷板進口的壓力值,單位為(KPa)
P2——冷板出口的壓力值,單位為(KPa)
在用户期望的冷板使用邊界條件下(給定的 TL 和 Q),測得的冷板所能支持的殼温值,在考慮標準差和冷板生命週期內熱性能衰減之後不能高於芯片的最大殼温。

冷板熱性能和流阻曲線
三、冷量分配單元及冷卻性能
冷量分配單元(CDU)是一種用於在液體迴路之間進行熱交換的裝置。CDU 組件包括接口、泵、液-液或風-液熱交換器、儲液罐、閥門、控制裝置、監控裝置、過濾器及各種傳感器,主要用於製冷量、流量、壓力及温度的測量和控制。CDU 使用的各種組件材料必須要和所用冷卻工質進行匹配測試驗證,確保其相容性。
CDU 將二次側流體迴路與一次側迴路隔離,提供二次側流體迴路和一次側流體迴路之間的連接及熱交換,CDU 的功能還包括對壓力、流量、温度、露點控制、水質潔淨度及泄漏監測。通過使用CDU 分離一次側和二次側迴路,可降低潛在的泄漏(二次側迴路中的液體量較小,壓力和流速較低)。在使用優化方面,通過 CDU 控制可以平衡由於温度的要求、負載的不同及功耗優化造成的各 IT 設備間的差異。
CDU 支持的機架數量可以從單個機櫃擴展到組合機架的組或集羣,液體通過安裝在機架中帶接頭的專門管道供回液歧管分配。CDU 的大小和參數設置取決所有 IT 設備集羣產生的熱負荷。當然各個功率水平因組件而異,確定熱負荷的大小需要考慮到未來有可能引入新技術時需要的熱冗餘。此外,冷卻工質的性質和特性(如導熱係數、粘度、比熱和密度)也會影響冷卻能力和泵的工作功耗。

冷量分配單元熱交換原理示意圖
1、冷量分配單元的考量指標
在選擇 CDU 時,有些參數需要考量,其中一些參數如表 9 所示。另外,需要和 CDU 的供應商確認,所有用於 CDU 部件的浸潤材料必須和冷卻工質材料相容。

冷量分配單元(CDU)考量參數
2、冷量分配單元冷卻性能
CDU 的換熱器冷卻能力取決於其趨近温度特性。趨近温度是冷卻工質在 IT 設備入口處的温度減去一次側冷卻水在 CDU 入口處的温度。除了趨近温度之外,在考慮 CDU 的散熱及機械性能時,還有其他因素需要考慮。其關鍵參數包括:
趨近温度(宜選用(3-10)°C)
液體成分(例如:純水、25%PG、55%PG)
一次側流量、二次側流量和泵功率和揚程
一次側用水温度等級(例如:W27、W32、W45、W+ 等等)
由於沒有一套標準化參數用於不同 CDU 之間的性能比較,建議每個客户與各自的 CDU 供應商合作,依據實際操作條件,評估所考慮的 CDU 能否滿足散熱要求。例如,可以讓供應商提供 CDU 在特定液體操作下,在一次側和二次側不同流量的對應關係、CDU 的排熱能力及趨近温度等。
3、冷量分配單元一次側冷卻系統
室外冷源:
參考《GB 50019 - 2015 工業建築供暖通風與空氣調節設計規範》,CDU 一次側冷卻室外機在採用蒸發冷卻時,可以將供水温度逼近室外濕球温度。因此,在不使用製冷機組的情況下,CDU 一次側最低供水温度主要由項目所在地的夏季空調室外計算濕球温度確定(可參考 ASHRAE 各地環境以及十年極端天氣)。
參考《Liquid Cooling Guidelines for Datacom Equipment Centers》,開式冷卻塔循環水與外界空氣直接接觸,需要排放廢水。且水中雜質顆粒物較多,需要防止結垢。為保證製冷效果與穩定性,CDU 一次側冷卻設備不推薦使用開式冷卻塔,建議採用閉式冷卻塔或者乾冷器。
一次側管材:
參考 ASHRAE《Liquid Cooling Guidelines for Datacom Equipment Centers》,一次側迴路水管材質可以考慮:
銅合金:122、220、230、314、360、377、521、706、836、952;
聚合物 / 彈性體:丙烯腈丁二烯橡膠(NBR)、乙丙二烯單體(EPDM)、
聚四氟乙烯(PTFE);
不鏽鋼:300 系列、400 系列、碳鋼。
水質要求:
CDU 一次側循環水水質的好壞直接影響 CDU 的換熱效率以及使用壽命。為支撐液冷系統長期穩定運行,CDU 一次側閉式循環水系統水質可以參考 GB/T 29044-2012《採暖空調系統水質》中集中空調間接供冷閉式循環冷卻水系統標準。

GB / T 29044-2012《採暖空調系統水質》中集中空調間接供冷閉式循環冷卻水系統標準
同時,可參考 ASHRAE_TC.9.9_ Water-Cooled Servers Common Designs, Components, and Processes_2019

ASHRAE 一次側循環水要求
4、液冷羣控系統
液冷羣控系統負責室外冷源、液冷 CDU、一次側循環水泵、補水、水質監測、漏液告警等,通過羣控系統實現組網運行、節能控制,具備主備、輪詢、冗餘配置、故障切換以及供冷連續性功能。在羣控模式下,主控制器根據機房實際負載情況,對液冷機組進行加減機和降頻控制和巡檢告警等。
四、機架式冷卻工質供回液歧管設計考量
機架供回液歧管是二次側迴路中的一個關鍵部件,用於分配流入或流出機架內 IT 設備的冷卻工質。在使用機架式 CDU 的液冷部署中,歧管可以與 IT 設備和機架式 CDU 直接構成完整的閉式循環迴路。歧管結構的特點是沿着管的方向有一系列形成液體迴路的快換接頭連接着 IT 設備,連接接頭有盲插、手動連接、螺紋連接等多種類型。接頭的直徑和歧管尺寸的選擇需要滿足當前和未來液體流量及操作性能要求,以及 IT 設備內的液體流動拓撲結構和冷板數量需求。為了有效利用空間,冷卻工質歧管位置應位於機架佔地面積內。
歧管的位置通常在機架內後部,也可以根據IT設備的部署及配電設計要求,放置在機架的前面或側面。供回液歧管位置的選擇需要確保滿足快換接頭、電源接口、網絡和其他 I/O 的操作要求,包括 IT 設備運行的電纜和軟管的管理,需要方便 IT 設備的接入和斷開。供回液歧管為二次側液體迴路提供了一個重要的連接點,液體迴路的佈局可能會有所不同(此處不詳細討論),供回液歧管與液冷系統管網的連接點可以在機架的底部或頂部,但因連接位置點泄漏風險相對較大,在底部泄漏後滴落在地板上風險更低,所以建議連接點設置在機架底部。
二次側迴路的連接部件包括能夠保持二次側操作壓力的管道和快換接頭,同時,快換接頭需要滿足爆破壓力的要求工質(見第七章壓力安規)。典型的數據中心預期使用壽命是 10-20 年,除快換接頭外,由於歧管的部分結構壽命限制,可能需要對供回液歧管進行維修、維護和升級,還應顧及供回液歧管的裝配、調試和終身維護,因此需要仔細考慮歧管的設計和選擇。

機架式冷卻工質供回液歧管示意圖
1、冷卻工質供回液歧管考量指標
當評估不同的歧管設計方案時,需要考慮不同的參數以滿足歧管各支路流量分配的均勻性,以及歧管提供流量與需求流量的匹配性。其中一些參數如下表 所示。

冷卻工質供回液歧管考量參數
2、冷卻工質供回液歧管參考設計要求
任何歧管的參考設計都需要滿足表中列出的最低運行條件,以確保其能夠正常工作,同時在世界上絕大多數地方運輸過程中不會出現問題。

冷卻工質供回液歧管參考設計要求
五、冷板式液冷迴路中循環泵的選擇
泵是向其它系統重要部件提供液體流量的核心。泵的選擇是系統設計最重要的一環,在設計液冷解決方案的早期階段就需要考慮。為了使冷卻工質與泵相匹配,泵的形態及製造材料有多種選擇。出於維護和降低故障的目的,還可能會採用雙泵配置的冗餘設計,無論是串聯配置還是並聯配置,管路的連接都需要考慮空間、佈局、尺寸、材料相容性、維護方便性和連接類型。
泵由各種類型的電機驅動,在評估或優化裝置的能源效率時,需要考慮這一點。泵的安裝位置決定了其侷限性和選擇標準。泵在二次側的位置的選擇有很大的差異性。具體來説,如果泵放在 IT 設備中,其高度需不高於IT 設備的機箱高度。IT 設備內的空間非常寶貴,泵的集成構成了服務器機箱佈局的一部分。IT 設備供應商在設計液冷方案的時候需要管理機箱內冷卻工質的流量,使其和需被冷卻的電子元器件熱負載相匹配。
基於這一目的,泵可直接集成到冷板上,或以分離的形式提供循環動力和所需流量。作為一個好的系統設計,設計人員還需考慮壓降和效率。此外,還需滿足冷卻工質與泵內部材料和過濾裝置的材料相容性,以防污染顆粒堵塞泵並降低其工作效率,甚至導致故障。液體特性包括粘度,液體粘度的變化會改變泵的工作效率和壽命,選擇不當的泵可能會降低泵的壽命。
另一個考慮因素是工作環境,包括液體的特性和操作温度,這將決定泵內使用的部件材料,因為冷卻工質將與泵內件直接接觸。泵的選型要求還取決於管道佈局 / 設計、管道長度、彎管品質和材料選擇等參數,這些可能會導致液體和管壁摩擦並形成湍流,從而導致壓降增加。
1、泵的選擇考量指標

泵的選擇考量參數
六、快換接頭的選擇方法
在二次側流體迴路中,快換接頭是保證服務器具備在線插拔維護性能的關鍵部件,決定了 IT 設備的可維護性和模塊化設計,但其會給液冷系統帶來額外的流阻,因此快換接頭選型應考慮其流阻特性和後續服務器升級的需求。
快換接頭是公 / 母配置(插頭 / 插座、插件 / 主體等)配對使用的。斷開時,集成在快換接頭內部的用於密封流體流動的自封閥芯會斷開流體的連接,以保護周圍設備不受影響,因此其選型必須嚴格限制每次斷開時冷卻工質的泄漏量;一般要求單次插拔泄漏量小於 1/6 液滴(連續插拔 6 次,允許一滴滴落)或小於 0.5 毫升,且建議使用液體泄漏量最小的快換接頭,此類接頭通常為無滴、無溢流或平齊斷面設計。
在使用手動插拔快換接頭連接的系統中,應考慮人體工程學問題(例如鎖緊機構、連接力、空間限制),確保易於維修。盲插設計通常還需要考慮安裝公差和不對中公差,設計可靠的盲插配合機構(如導向裝置)。快換接頭與二次側迴路組件(機架液歧管、CDU、軟管等)的接口可以通過多種方式實現。對於軟管連接,椎管扣壓式或卡箍式結構提供了一種簡單可靠的連接方法;對於更剛性的連接,如機架液歧管組件,螺紋連接比較常見,應注意的是,螺紋連接應禁止使用生料帶和螺紋密封膠。SAEJ 1926或 G / BSPP ISO 1179 等 O 形圈連接堅固可靠,便於安裝和製造。

快換接頭示意圖
1、快換接頭考量指標
表中列出了選擇冷板式液冷快換接頭時需要考慮的參數。需要注意的是,工作壓力和爆破壓力不同,工作壓力可定義為正常工作條件下的最大系統壓力,爆破壓力錶示部件發生災難性故障時的最小壓力。

快換接頭考量參數
*無法提供插拔力曲線的,至少應提供設計工況下的插拔力值,尤其在手動插拔設計中,插拔力必須滿足運維人員可手動插拔的要求。
七、二次側管路
二次側管路將 CDU 和末端服務器冷板相連,一般連接方式有直連和環形管路連接兩種。環形管路是二次側迴路中的一個關鍵部件,用於連接 CDU 的二次側和機架歧管,實現冷卻工質均勻分配;環形管網包含供液環管、回液環管、CDU 支路、機架歧管支路、排氣裝置和排液口等,用以供液環管和回液環管分別形成環狀閉合迴路,且提高環狀閉合迴路系統的流量均勻性。另外,環形管網中無死端,液體一直處於流動狀態,不易變質。
每個 CDU 支路和機架支路上都安裝有閥門連接 CDU 和機架歧管,便於單個設備的維護。為確保局部管段檢修或發生故障時,其它管段能正常運行,不間斷供液,應採用閥門將環形管網分成若干獨立段,一般為相鄰機架管路段之間用閥門隔開,也可將多個機架管路隔開。

直連式示意圖

環形管路示意圖
環形管網一般佈置在靜電地板下,管網上的閥門操作手柄應方便操作,不與機架底座或靜電地板立柱相干涉;環形管網段與段之間、支路與 CDU、機架歧管之間通過快裝卡盤或者法蘭連接。當管網較長時,應在某一段或某個連接處,採用軟連接和活套法蘭,採用軟連接吸收設計及加工時長度方向誤差,採用活套法蘭吸收法蘭焊接時的角度誤差。
環形管網的管徑選型根據 CDU 流量以及機架數量進行核算,支路管徑與 CDU 和機架歧管接口匹配。環形管網宜採用 304 或以上不鏽鋼材料在工廠內預製完成,施工現場直接拼裝。不鏽鋼管道焊接採用氬弧焊工藝,單面焊接,雙面成型。每一段管路都需無塵車間生產確保管內潔淨,以及封閉包裝發往現場,且出廠前都必須經過酸洗鈍化及超聲波清洗。

環形管網參考設計輸入
八、背板空調
背板空調負責液冷服務器風冷部分散熱,其由背板空調系統(外殼、風機、換熱盤管、控制器)、工質管道及閥件、配電系統及自控系統組成,用於保障機組實現最優性能和工藝設備等安全運行。背板空調與機架緊密結合,安裝在機架後門。背板空調常用工況送風温度 ≤25℃,迴風温度 35℃。
泄漏檢測與干預
減少泄漏的主要方法是採用穩健的泄漏預防策略。同時,在實際設備安裝操作中,需要制定完善的泄漏管理計劃,管理計劃包括泄漏檢測和干預,且需要滿足數據中心的設施運行要求。
在二次側冷卻迴路中,需要在不同的存在泄漏風險的位置進行檢測,如 CDU、機架、快換接頭、和/或計算節點,可採用間接檢測方法,可通過監測和分析現有硬件和傳感器的狀態,檢測並識別到管路中與泄漏特徵匹配的微小壓降和/或流量變化。而直接檢測方法是在高風險區域部署專用泄漏檢測硬件。典型的直接檢測裝置為點探測器、薄膜檢測帶或泄漏檢測線纜,當其與泄漏的導電冷卻液接觸時會記錄並告警。為了進行可靠的泄漏檢測,其傳感器應放置在發生泄漏時冷卻工質與之直接接觸或有可能聚集後再接觸的區域,比如機架、CDU 和 / 或二次側環路管道等設施的下方,以檢測二次側環路管路和機架之間和/或冷卻工質輸送過程中的潛在泄漏風險。
由於計算節點通常是 IT 設備中最昂貴的組件,且存在泄漏的導電冷卻工質可能造成設備損壞和數據丟失等風險,因此需要檢測計算節點附近的潛在泄漏,而且在檢測泄漏和快速定位發生泄漏的計算節點位置的同時,需要吸附、儲存和/或導流裝置,避免漏液與高價值設備接觸,爭取人工處理響應所需的時間。另外,增加用於確定泄漏位置的傳感器,會帶來成本相應增加。
泄漏有不同級別的干預方式,最低級別的干預是手動干預,即當發生泄漏時,會通知設施人員到現場處理,但人員響應時間週期內可能已造成損失。高級別的干預是自動電氣干預,即在發送泄漏事件的同時對 IT 設備進行數據存儲、關機和/或自動斷電。這可以降低暴露在泄漏/冷卻工質中的硬件損壞或數據丟失的概率,但需要考慮如何處理被泄漏的液體接觸但被挽救了的設備。還有一種更好的的方法是自動電氣和流體干預,也就是當檢測到泄漏通知時,IT 設備斷電,同時冷卻液關閉。這可以更大限度地避免大量硬件設施暴露接觸到泄漏液體中,從而方便維修,減少損失。當然,泄漏自動干預會造成成本的增加,是否採用需要根據實際需求進行權衡。
泄漏檢測分類分為間接和直接兩種方式:
間接方式:通過使用現有的壓力、流量、温度和氣泡等傳感器和算法,來確定泄漏;
直接方式:在特定位置(如上所述)使用泄漏繩/電纜、薄膜檢測帶等檢測作為傳感器,直接檢測漏液。
泄漏干預分類分為兩種方式:
手動干預:在檢測到泄漏後使用手動干預,例如,關閉流量控制閥並關閉 IT 設備;
自動干預:在檢測到泄漏後使用自動干預方法,例如,IT 設備斷電和/或冷卻液關閉。
壓力安規
液冷系統及其部件需要符合當地安全規範,也可參考國際電工委員會(IEC)針對 IT 設備的安全標準,即 IEC 60950-1和 IEC 62368-1。
IEC 62368-1《音頻/視頻,信息和通信技術設備第 1 部分:安全要求》第 3 版(2018 年)是新的安全標準,其要求冷板以正常工作壓力的3 倍壓力進行爆破壓力測試,允許變形但不能泄漏;而在正常工作壓力下(例如:40psi) 液體不泄漏,冷板無變形。
總結
數字化和綠色低碳已經成為經濟社會高質量、可持續發展的關鍵推動力。中國“雙碳”目標的提出,更讓數字化與綠色低碳相互協同,加速推動數字基礎設施優化升級,推進千行百業更快速實現碳中轉型,也成為中國發展數字經濟,把握新一輪科技革命和產業變革新機遇,構建現代化經濟體系的重要引擎。英特爾植根中國,攜手生態夥伴積極行動,不斷協同推進技術創新,堅定不移實施責任戰略,助力中國加速實現“雙碳”目標。
《綠色數據中心創新實踐——冷板液冷系統設計參考》是在生態夥伴積極參與和大力支持下,應對 IT 設備功耗和功率密度的增加,需要新的冷卻技術來滿足不斷提高的計算性能需求,而共同探索和提出的更經濟、更高效的冷卻方案參考。本規範借鑑國際經驗,經大量實驗,系統闡述了冷板液冷系統設計相關的要求,以及未來液冷設計需要遵守的規範要求,可為數據中心液冷方案設計與研究提供路徑與借鑑。
就在本設計參考規範推出前不久,英特爾也發佈了到 2040 年實現温室氣體零排放的目標及里程碑。我們也希望籍此設計參考規範面世,進一步深化與產業夥伴的合作創新,繼續深入探討冷板液冷技術,不斷完善本規範,進而為推進 IT 設備、算力設施,尤其是作為數字經濟底座的數據中心進一步節能降耗,探討新方案、新途徑,為綠色新型基礎設施建設打造最佳實踐,並由此釋放整個產業生態和科技生態之力,為中國數字基建脱碳拓展更廣闊的道路,為數字經濟整體邁向“碳中和”奠定堅實基礎,並助力中國為全球可持續發展做出更大貢獻。