一文詳解深度學習冷板式液冷散熱技術規範及要求之二_風聞
蓝海大脑GPU服务器-水冷服务器、大数据一体机、图数据一体机2022-12-22 12:39
液冷應用案例
一、超聚變液冷解決方案
超聚變數字技術有限公司經過 10 年可靠性積累,170 餘項可靠性測試,已經成功在國內外交付商用液冷服務器 10000+台,商用案例有互聯網、高校、雲數據中心、政企、超算、金融等。
超聚變打造整創新架構整機櫃液冷服務器,整機櫃使用機櫃上走電下走水架構,原生液冷設計實現天然可靠性保障,支持 100%液冷散熱,PUE 達 1.10 以下,滿足國家政策要求,是東數西算最佳的液冷解決方案,整機櫃支持高密部署,整機櫃可支持 144 個 CPU,同時機房免冷機部署,機房空間利用率再提升20%;業界首創液、網、電三總線盲插,機櫃內 0 線纜部署,支持機房向機器人運維演進,同時配套超聚變智能運維管理軟件業務上線效率提升 10 倍以上。通過架構創新和整機工程技術創新打造最佳的商用液冷方案,致力為客户提供綠色節能算力,為東數西算主要樞紐節點提供優質方案。
在國內某液冷數據中心佈署有超聚變上萬液冷節點,是全球最大液冷集羣,TCO 降低 30%,交付效率提升 100%。

二、英特爾助力京東雲打造冷板液冷解決方案
到 2025 年,重點工業行業能效全面提升,數據中心等重點領域能效明顯提升,綠色低球能源利用比例顯著是高,節能提效進一步成為綠色任碳的"等一能源"和降相成碳的首要舉措,新建大型超大型數挺中心電能利用效率(PUE)優於1.3。
1、數據中心能耗持續增長液冷散熱比風冷更具優勢
現代化高密度數據中心,不斷提升的整體功耗給救熱效率,節能減排、運營成本等帶來了極大挑戰,相比傳統的空氣冷卻方案,液體冷卻(液冷)有着更高的冷卻效率與解源效率:
熱量能夠在更靠近其來源的地方與液冷介質進行交換
同體積的傳熱介質,冷卻劑傳遞熱量的速度是空氣的6倍,蓄熱量是空氣的1000倍
冷卻液傳熱次數更少,容量縮減更小,可更有效降低XPU等關鍵組件的運行温度及性能損失
2、高密度工作負載計算能力需求不斷提升
芯片整體TDP隨性能增加而增加,京東雲 x86 處理器典型TDP,2013年為105瓦,2022年為350瓦
CPU漏電功率隨温度升高而增加,佔用更多功率預算,冷卻系統要幫助將熱阻降低到典型範圍:0.3-0.5 c/w
液冷與風冷在設計上有較大差異,在效率、穩定性、經濟性等方面還有很多優化空間
3、面向可持續發展的冷板液冷解決方案
京東雲冷板液冷解決方案是從數據中心級到系統級的整體方案,涵蓋CDU、機架、服務器等不同層級的產品與技術,在CDU、工作液、歧管、服務器等方面進行了針對性的設計。
CDU
在整體液冷解決方案中,CDU 必須具有泵、熱交換器、過濾器、補水系統、變頻器、監視器功能(如温度和壓力傳感器)和其他組件
工作液
一次迴路側選擇去離子水+乙二醇作為工作流體。去離子水有低電阻特性,乙二醇確保流體在低環境温度下凍結而導致管道破裂的低風險。二次迴路選擇純去離子水以提高熱性能。
歧管
安裝在機架上的歧管將冷流體分配到每個服務器節點,在歧管頂部的快速連接器可方使機架部署;歧管底端設計了手動排污口,方便系統排水維護。
服務器
服務器液冷方案主要由冷板、管路、快速接頭和檢漏線組成,單相冷板供液温度範圍為 40~45℃,工作液容乙二酶溶液(去離子水)。為防範液體泄露,京東雲採用檢漏線包裹液冷系統,特別是在冷板和管路接頭處,確保漏液情況下及時報告並啓動漏液應急措施。
4、第三代英特爾”至強”可擴展平台助力京東雲服務器液冷設計
第三代英特爾至強可擴展處理器
提供8個插措配置的多插槽內核計數密度
性能、吞吐量和 CPU頻率顯著提升
內置AI加速功能,提供無規性能基礎,加快多雲、智能邊緣和後端等數據的變革性影響。
京東雲已於 2021年第二季度在數據中心部署了冷板液冷解決方案採用了基於第三代英特爾至強可擴展處理器的定製化服務器,調整了核心數、基礎和 Turbo題率,TDP、RAS特性、T機箱等主要基數,以適配其可持續的液冷數據中心。
5、實際工程部署結束,京東雲冷板液冷方案優勢顯著
通過部署冷板液冷整體解決方案,京東雲自建數據中心實現:
數據中心PUF 降至1.1
每個14KW 機櫃每年節電31031度
每個14KW 機櫃每年碳減排24.4噸
三、藍海大腦冷板液冷解決方案
藍海大腦通過多年的努力,攻克了各項性能指標、外觀結構設計和產業化生產等關鍵技術問題,成功研製出藍海大腦高性能冷板散熱解決方案,支持快速圖形處理,GPU 智能運算,性價比高,外形美觀,滿足了人工智能企業對圖形、視頻等信息的強大計算處理技術的需求。
快速、高效、可靠、易於管理的藍海大腦液冷工作站具備出色的靜音效果和完美的温控系統。在滿負載環境下,噪音控制在 35 分貝左右。藉助英偉達 NVIDIA 、英特爾Intel、AMD GPU顯卡可加快神經網絡的訓練和推理速度,更快地創作精準的光照渲染效果,提供高速視頻和圖像處理能力,加速AI並帶來更流暢的交互體驗。
深度學習液冷服務器系統突破傳統風冷散熱模式,採用風冷和液冷混合散熱模式——服務器內主要熱源 CPU 利用液冷冷板進行冷卻,其餘熱源仍採用風冷方式進行冷卻。通過這種混合製冷方式,可大幅提升服務器散熱效率,同時,降低主要熱源 CPU 散熱所耗電能,並增強服務器可靠性。經檢測,採用液冷服務器配套基礎設施解決方案的數據中心年均 PUE 值可降低至 1.2 以下。
液體冷卻方案****名詞解釋
一、冷板式液冷
冷板式液冷是指採用液體作為傳熱工質在冷板內部流道流動,通過熱傳遞對熱源實現冷卻的非接觸液體冷卻技術。其中,熱量通過裝配在需要冷卻的電子元器件上的冷板,再通過冷板與液體工質的熱交換實現的方式,稱為間接式液冷。其與浸沒或噴淋式液冷技術不同,後者主要是指電子元器件(通常在熱源表面也需要安裝散熱翅片,以增加熱交換面積)與冷卻工質直接接觸的冷卻方式。
二、冷板
冷板是帶有內部流體通道並允許冷卻工質流過的熱交換器或散熱器。冷板安裝在需要冷卻的電子元器件熱表面上,將元器件產生的熱量通過液體冷卻工質傳遞到冷量分配單元的板式熱交換器。冷板的設計多種多樣,可以根據不同的需求對其進行結構設計優化,其內部流道可以是溝槽、扣合翅片、鏟齒、摺疊翅片等構造。對於一些高功耗或高熱密度元器件的散熱設計,流道通常還會設計成更復雜的微通道結構,以增加接觸面積,提高其散熱性能。
冷板基本結構形態包括散熱模塊和固定模塊,固定模塊設計應最大限度滿足扣合力正壓冷板。根據散熱模塊和固定模塊之間的連接方式可分為分體式液冷冷板(冷板散熱模塊與固定模塊由螺釘或其他方式連接,可根據需求進行拆卸與組裝),以及一體式液冷冷板(冷板散熱模塊與固定模塊不可拆卸與組裝)。根據密封形式則可分為密封圈組裝式或焊接密封等。
三、混合冷卻
指同時使用風冷和冷板液冷的方式。常見的混合冷卻是對高功率和高熱密度元器件使用液冷冷卻,而對於低功率元件的冷卻則使用風冷的方式。以 IT 設備的冷卻為例,對於 CPU / GPU 或內存模塊上會安裝液冷冷板,而風扇則用於形成強迫風冷對其他元器件進行冷卻。
此外,還有一種將冷板、泵及換熱器集成在計算系統裏面的設計應用。所以採用混合冷卻方式的設計仍然需要空調,來滿足非液冷元器件的散熱需求。為進一步降低機房空調的功耗,可以在機櫃門安裝液冷背板門對熱空氣進行初步冷卻,這種方式可以用於高温機房的設計,甚至可以取消機房空調,構成全液冷冷卻設計。
四、全液冷卻
全液冷卻指的是將所有元器件產生的熱量全部通過液體冷卻工質傳遞至外部環境的冷卻方式。對於 IT 設備,採用全液體冷卻大致有兩種方式,一種是通過冷板設計實現服務器熱量完全導入冷卻工質,一種是通過冷板和液冷背板門組合的方式將服務器的熱量全部導入冷卻工質。前者需要通過設計一個與服務器設計相匹配的複合冷板組件為所有元器件提供冷卻工質的熱傳遞路徑。
對於全液冷機架的設計,機架通常會有一個冷板背板門安裝在熱空氣出口,將服務器中的熱量傳遞到液冷工質中。全液體冷卻方式只需要最低能耗限度的室內空調,來消除殘餘在空氣中的熱量。在可接受高温機房的設計中,室內空調甚至可以取消,以進一步降低數據中心 PUE。
五、單相和兩相冷卻工質(冷卻工質 / 冷媒)
依據冷卻工質在吸收或釋放熱量過程中可能保持液相或產生氣液相轉化的特性,可將冷卻工質區分為單相冷卻工質和兩相冷卻工質。對於在整個運行過程中保持單一液態的冷卻工質稱之為單相冷卻工質,通常包含水基冷卻工質和非水基冷卻工質兩類。
水基冷卻工質中,以純水為溶劑,不添加任何其他材料或只依據耐零下温度需求添加一定比例(0%~60%)防凍劑構成的,為純水液,需要配合工質純化模塊使用;以純水為溶劑,添加緩蝕劑、殺生劑等,並依據耐零下温度需求添加一定比例(0%~60%)防凍劑構成的,為配方液,使用時需要定期取樣檢測添加劑狀況。非水基冷卻工質,一般為沸點不低於水的氫氟醚、全氟碳等介電液體或礦物油,使用時需在浸潤材料兼容性上應進行嚴格審查和測試。
對於在吸熱和放熱過程中會發生氣液兩相轉換的液體,稱之為兩相冷卻工質。兩相冷卻工質的沸點通常較低,主要通過液體的氣化潛熱吸收熱量,在循環中形成攜帶熱量的兩相流。兩相冷卻工質通常是介電液體或冷媒。不同兩相冷卻工質的沸點通常不同。
冷板式相變液冷技術的冷板有時也被稱為蒸發器。在本文中,冷板指用於單相冷卻工質或兩相冷卻工質的冷板,冷卻工質指單相或兩相冷卻工質。冷卻工質和所有暴露在冷卻工質中的材料(稱為浸潤材料)之間必須具有相容性,以降低在長期工作環境下腐蝕、加速老化、滲透等風險。且即使在確保冷卻工質和所有浸潤材料相容,在實際操作中仍然需要定期檢查冷卻工質,以確保冷卻工質的品質穩定可靠。
六、冷量分配單元
冷量分配單元的主要作用是隔離一次側與二次側迴路,並在其內部提供一次側與二次側的熱交換能力。冷量分配單元主要分為機架式(嵌櫃式)、機櫃式和平台式等。機櫃式 CDU 通常為一個或多個 IT設備的機架甚至整個機房提供冷卻,具備比機架式 CDU 所需更大的冷卻能力和供液能力。平台式 CDU 通常是一種帶有更大冷卻能力和供液能力的 CDU 類型,最大冷卻能力可達到 10MW 以上,可以為整個數據中心提供冷卻。為避免 CDU 故障造成冷量不足,需要結合實際情況充分考慮 CDU 的 N+1、N+2 冗餘備份,或對 CDU內部的泵驅模塊進行 N+1 冗餘設計,以確保足夠的冷量用於冷卻 IT設備,或構成冗餘設計實現 CDU 的可在線維護。
CDU 中通常包含熱交換模塊、一二次側過濾組件、二次側泵驅模塊、定壓脱氣模塊、定壓補液模塊、恆温恆壓監控模塊、漏液檢測模塊、冷卻工質品質參數(電導率、pH)檢測模塊、控制系統、防凝露及去離子裝置等。其中,二次側過濾組件的過濾能力須匹配冷卻迴路中對顆粒最敏感的部件,如自封式快換接頭和微通道冷板的需求,以確保冷卻工質中潛在的顆粒不會在流體迴路中造成堵塞,並阻止冷卻工質的流動,或插拔時部件失去自封能力。建議過濾精度為 50 微米。
七、機架式冷卻工質供回液歧管
冷卻工質供回液歧管主要功能是將從 CDU 分配進入各機架內的冷卻工質再次均勻分流到各 IT 設備,並從冷板出液端收集迴流液體。歧管必須能夠提供符合 IT 設備需求的冷卻流量,確保機架內冷卻工質流量分佈均勻,保障 IT 設備可在線移出或接入液冷系統。這些因素在設計中必須仔細考量。
八、自封式快換接頭
自封式快換接頭(QD)用於幫助維護人員檢修而提供快速連接,或斷開 IT 設備或其組件與液冷系統的連接並確保具備自封功能,進而確保冷卻工質不會泄漏,液冷系統運行不受影響,IT 設備可持續安全運行。自封式快換接頭一般有兩種設計,即手動插拔式和盲插式。手動插拔式是需要人為手動握住快換接頭,進行插拔連接操作的接頭設計,可分為單手插拔和雙手插拔式,因為涉及手動插拔動作,需要保證足夠插拔操作空間。而盲插接頭是一種通過壓力將公母頭插入導通或拔開斷開,無需手動操作的接頭設計,需要通過精確的滑軌設計或定位銷來輔助定位連接,並要保持導通所需的壓力,以避免公母頭滑移導致接頭液路斷開。