高通量以太網聯盟主席蔡德忠:破局AI算力瓶頸,以“慢功夫”換“真落地”
【環球網科技報道 記者 林迪】近日,在第21屆CCF全國高性能計算學術大會期間,由阿里雲與中國科學院計算技術研究所聯合發起的“高通量以太網(ETH+)聯盟”集中展示了在AI算力網絡互聯領域的重大突破,發佈了涵蓋協議標準、核心芯片、系統架構在內的一系列國產化成果,標誌着該聯盟在構建自主可控、高性能、可擴展的智算網絡基礎設施方面邁出了關鍵一步。
算力躍遷的“阿喀琉斯之踵”:網絡互聯瓶頸
隨着AI大模型參數量的指數級增長,單一GPU已無法滿足訓練需求,須通過“Scale-Out”(橫向擴展)和“Scale-Up”(縱向擴展)的方式,將成百上千個GPU連接成一個超級計算集羣。然而,這種並行計算模式帶來了海量且密集的GPU間數據交換需求。相比傳統通用計算,AI訓練任務對網絡帶寬的要求通常高出兩個數量級。
更嚴峻的挑戰在於,大模型訓練中的數據同步具有明顯的週期性。任何環節的性能短板——無論是網絡鏈路擁塞還是設備故障——都可能成為整個集羣的“阿喀琉斯之踵”,導致算力無法線性擴展,嚴重影響訓練任務的進度與穩定性。業界普遍認為,如何構建一個能長期維持高帶寬、低延遲和穩定性能的互聯體系,是確保集羣算力隨規模近似線性增長的世界性難題。
傳統網絡架構在設計之初並未針對如此高強度的GPU間通信進行優化,難以勝任。因此,業界共識是,必須從拓撲設計、協議選擇、鏈路管理到擁塞控制等全棧層面,進行體系化的技術架構創新,構建一種以GPU為核心的全新網絡。
協同聚力:共築高通量以太網生態競爭力
高通量以太網(ETH+)聯盟,致力於針對智算場景的高通量網絡協議的制定,標準化、芯片化及系統化落地,久久為功,打造智算場景下的國內開源開放的智算網絡生態。
“真正的競爭力在硅片,而不是在幻燈片。戰略定力和耐心是做芯片的前提。” 高通量以太網聯盟主席、阿里雲智能集團副總裁蔡德忠在發佈會上強調。他指出,聯盟以最終落地為唯一判斷標準,憑藉阿里雲大規模部署的實踐經驗,將設計方案拆解為具體的芯片功能(Feature),50多家會員單位“按單點菜”,協同開發。

為避免陷入封閉生態,聯盟要求IP、接口、驅動全部開源,其驅動力來自終端用户需求,而非單一芯片廠商利益。“我們背後驅動力必須是終端用户,而不是某一家芯片廠。” 蔡德忠表示。目前,聯盟協議聚焦於實現國產芯片間的高效互通,以更大膽地進行定製化創新。“理論上可以異構混部,但代價太高,沒人會真這麼做。”
全棧突破:從協議到芯片*,系統化打造自主可控國產方案*
當前,全球AI格局重塑,不同企業的私有協議與聯盟林立,生態分化明顯。在此背景下,高通量以太網聯盟選擇了一條以開放、標準、國產化為核心的道路。本次發佈會是聯盟兩年耕耘的集中成果展示,覆蓋了從底層協議到上層系統的完整鏈條。
協議方面,聯盟最新發布的《高通量以太網(ETH+)協議(1.1)》,是繼Scale-Out場景實現協議收斂與標準發佈後,在Scale-Up場景取得的關鍵進展,為AI智算集羣提供了基於以太網生態的全新解決方案。“如果哪天出現革命性架構,行業會重新洗牌。” 蔡德忠坦承技術變革的可能性,但他也指出,當前的高通量以太網設計已為未來預留了光互連可擴展接口,“真到那天,只需升級協議即可”。
芯片方面,針對外界對“用電力拼算力不可持續”的質疑,蔡德忠認為,當前國產芯片的首要矛盾是算力不足,而非能耗過高。他預測,未來三到五年,AI仍將沿着Transformer架構加速迭代,自動駕駛、編程助手等殺手級應用的出現將持續推高算力需求。因此,聯盟的工作重心將長期聚焦於數據中心智算互聯,彌補國產芯片算力不足的劣勢。
最後,蔡德忠用一句話總結了聯盟的信念:“芯片才是競爭力。當國產網卡、交換芯片和硅光模塊如期流片歸來,中國智算網絡將在全球賽場與巨頭同場競技。”
從協議標準的制定,到核心芯片的流片,再到開放系統的落地,高通量以太網聯盟正以“慢功夫”換取“真落地”。隨着高通量以太網聯盟系列成果的落地,在解決AI智算時代算力躍遷的“阿喀琉斯之踵”的同時,更構建了一條自主可控的國產化技術路徑。