超智融合研究報告發布通用全精度高算力芯片正成為關鍵技術

2024-11-15

【環球網科技報道記者勃潺】11月15日，在第六屆中國超級算力大會上，《2024中國算力發展研究報告之超智融合技術路線與趨勢》（以下簡稱“研究報告”）正式對外發布。

作為首部“超智融合研究報告”，其由國家信息中心信息化和產業發展部主任單志廣、中國信息通信研究院雲計算與大數據研究所所長何寶宏、中國科學院計算技術研究所研究員張雲泉等共同主編。

研究報告就人工智能發展催生海量算力需求背景下，超智融合技術的發展與創新路徑、應用場景和實踐案例等做了系統性歸納與分析。

研究報告指出，超智融合是一個循序漸進的發展過程，其相關技術融合了超算強大的數據處理能力與人工智能的算法優化能力，可有效解決人工智能等新興產業的算力瓶頸，推動計算技術發展。

而兼容主流計算生態是超智融合技術的發展必然趨勢。當前超算領域基於x86 CPU和GPU架構已積累海量應用軟件，在人工智能等領域已佔據超90%的市場份額。要實現“超智融合”目標，需要具備支撐主流計算生態的算力系統，否則將給開發者帶來巨大移植負擔。

這需要“超智融合”算力系統，不僅要在算力架構層面實現CPU+GPU融合的網絡架構，還需在算力調度、算力運營等方面，形成高效分配核心，以及統一的服務平台。而在此過程中，通用全精度高算力芯片正成為關鍵技術。

“傳統超級計算機提供的是雙精度浮點運算，主要用於解決數值模擬和第一性原理計算等科學計算。而智算系統提供的是半精度或整數運算，主要面向人工神經網絡模型的訓練和推理。” 何寶宏介紹，以新型GPU為代表的通用全精度高算力芯片作為研製智能超算系統的硬核技術，英偉達、英特爾等國際廠商已在佈局研製。

伴隨人工智能技術不斷融入各行業應用領域，AI應用場景正變得複雜，單純的半精、整型算力環境已難以滿足如蛋白質結構預測、新材料設計、天氣預報、大規模分子模擬等 AI for Science 場景中。

因此，通過單一芯片平台提供全精度和混合精度計算，成為“超智融合”發展背景下的算力基礎設施發展趨勢。

“超算中心將向超智融合計算中心演進，並伴隨眾多如：全精度大算力高互連通用加速芯片、面向傳統並行計算和分佈式訓練的編程模型、面向HPC&AI應用的智能化資源管理與作業調度工具等新型技術與應用的創新。” 張雲泉説。

研究報告還顯示，超智融合並非簡單的“超算+智算”堆疊，而是從芯片到計算、存儲、網絡，算力調度、系統運維的體系化融合，包含了數據融合、算法融合、業務融合、基礎設施融合等多維度。

單志廣介紹，超算與智能計算的融合是一種雙向賦能，將重塑計算科學、IT 產業的格局。如在材料科學中，通過超算模擬原子和分子層面的相互作用而產生的性能數據，可幫助智算訓練預測新材料特性的模型，加速新材料的研發進程。

就超智融合技術的發展階段，中國科學院院士、北京航空航天大學計算機學院教授錢德沛表示，高性能計算與AI未來有望走向融合態勢，並將呈現出三個階段性的特徵：一是超算支撐AI應用（For AI），利用強大算力來提升AI性能；二是AI改進傳統超算（By AI），通過AI技術使計算系統更加智能和高效；三是超智實現內生融合（Being AI），使AI成為計算系統的核心，實現算力和算法的持續優化。

研究報告還介紹了“流體仿真的AI方法”“科研‘模型+數據驅動’演進”“國家超算互聯網建設”等前沿“超智融合”實踐案例。