昇騰雲CloudMatrix 384 超節點,六大科技創新詳解
guancha

5月16日,華為雲AI峯會在北京召開,華為雲副總裁黃瑾發表主題演講,介紹了更多CloudMatrix 384 超節點技術優勢與細節。
他指出,隨着大模型訓練和推理對算力需求的爆炸式增長,傳統計算架構已難以支撐AI技術的代際躍遷,超節點架構的誕生不僅是技術的突破,更是以工程化創新開闢AI產業的新路徑。華為雲CloudMatrix 384超節點具備MoE親和、以網強算、以存強算、長穩可靠、朝推夜訓、即開即用六大領先技術優勢,以系統架構創新重新定義新一代AI基礎設施。

華為雲副總裁黃瑾
重新定義AI基礎設施架構,開闢算力新紀元
當前,大模型訓練經歷了從早期小模型在單卡訓練、小參數大模型在單機訓練,到現在MoE、長序列、多模態大模型都在AI集羣上訓練的演進過程。AI算力的瓶頸,從單卡算力的瓶頸到單機內總線帶寬的瓶頸,再到現在集羣間通信帶寬的瓶頸,需求增長了1萬倍。
然而過去的8年裏,單卡硬件的算力增長了40倍,但是節點內的總線帶寬只增長了9倍,跨節點的網絡帶寬只增長了4倍,這使得集羣網絡通信成為當前大模型訓練和推理的最大挑戰。
黃瑾表示,面對這些挑戰,華為雲創新性的推出了採用全對等互聯架構的CloudMatrix 384超節點。這項技術創新跳出單點技術限制走向系統性、工程性的創新算力架構,直面通信效率瓶頸、內存牆制約、可靠性短板三大技術挑戰。通過新型高速互聯總線實現384 張卡互聯成為一個超級雲服務器,最高提供300Pflops的算力規模,比業界同類產品領先67%。
解碼六大優勢,CloudMatrix 384超節點重構AI算力架構
目前,基於CloudMatrix的超節點集羣已經在蕪湖、貴安、內蒙規模上線,黃瑾進一步深入解讀了六大技術創新點:

**MoE親和架構,從“小作坊”到“超級工廠”。**在傳統架構下,MoE模型訓練容易因通信延遲導致算力浪費,而CloudMatrix 384超節點的分佈式推理平台可以説是專為MoE大模型而生。黃瑾指出,對比一卡多專家的“小作坊模式”,超節點更像“大工廠模式”,通過高速互聯總線,能夠實現一卡一專家高效分佈式推理,單卡的MoE計算和通信效率都大幅提升。這也是為什麼有幾百個政務、零售、醫療、保險、製造、礦山、旅遊等各行各業的客户,基於華為雲昇騰AI雲服務部署DeepSeek模型的創新應用,例如在智能助手、智能客服、互聯網搜索、內容創作等各種場景落地。
**以網強算,雙層網絡破解“數據堵車”。**當AI算力走向規模化部署,單點的芯片性能不再是制約算力發展的唯一變量,如何由點及面地激活算力矩陣的共振效應,也是破解AI時代算力命題的關鍵一步。而釋放聯接力也正是超節點最大的創新突破之一,黃瑾介紹,傳統網絡像擁堵的城市道路,CloudMatrix 384則構建了AI專屬高架橋,通過MatrixLink服務將單層網絡升級為兩層高速網絡,一層是超節點內部的ScaleUp總線網絡,確保超節點內384卡全對等高速無阻塞互聯,卡間超大帶寬2.8T,納秒級時延;另一層是跨超節點間的ScaleOut網絡,可支持微秒級時延,資源彈性擴展;同時,基於全局拓撲感知的智能調度算法,保障客户任務長穩運行。
以存強算,彈性內存改寫“算存綁定”。 華為雲首創了EMS彈性內存存儲,打破傳統GPU算力與顯存綁定的關鍵障礙,通過內存池化技術,實現顯存和算力解綁。一方面,用EMS替代NPU中的顯存,可使得首Token時延降低,最高降幅可達 80%;另一方面,當NPU的顯存不足時,EMS獨立擴容,不必再通過堆NPU以獲得更多內存。同時,EMS還支持算力卸載,這也使得系統吞吐量提升,有的場景達100%的提升。總之,這一技術創新大幅提升了資源利用率、性能和吞吐量。
**長穩可靠,故障自愈的“AI醫生”。**隨着模型訓練需求的不斷接入,大集羣的運維難度大、複雜性高的問題日益凸顯。對此,華為雲開發了昇騰雲腦運維“1-3-10”標準,即 1 分鐘感知、3分鐘定界、10 分鐘內恢復。通過5層壓測、靜默故障感知技術,昇騰雲腦可將硬件故障感知率從40%提升至90%。同時,覆蓋計算、存儲、網絡、軟件四大種類故障模式庫也打通了全棧故障場景,這一全棧故障知識庫能夠覆蓋95%常見問題以實現故障快速定界;在恢復機制上,3層快恢技術、快速建鏈技術、圖編譯緩存等技術能夠實現萬卡故障快速恢復。
**朝推夜訓,算力資源“錯峯用電”。**在大模型訓練中,提升算力利用率,避免算力閒置也是企業關心的重點之一。CloudMatrix 384超節點通過“訓推共池”“靈活調度”兩大關鍵技術實現朝推夜訓,白天進行模型推理,晚上閒時進行模型訓練,算力資源利用率可提升30%以上。
即開即用,“算力水電”普惠模式。為助力客户更好地專注業務模型開發,華為雲已經在全國三大樞紐數據中心——烏蘭察布、貴安和蕪湖完成了超節點規模佈局,支持百TB級的帶寬互聯,10毫秒時延圈覆蓋全國19個城市羣,讓客户能夠第一時間享受到即開即用的AI算力資源。同時,華為雲擁有專業的超節點運維團隊,在為客户免去繁瑣的管理和維護的同時,保障資源的穩定運行。
做好智能世界雲底座和使能器,加速行業智能躍遷
如今AI已經成為最有影響力的通用技術,如何將技術價值轉化為應用成果,成為千行百業面臨的核心課題。華為雲超節點創新系統架構的背後,是華為雲堅持“昇騰雲服務支持百模千態,盤古大模型重塑千行萬業”的戰略。
黃瑾強調,一直以來華為雲持續推動昇騰AI雲服務全面升級,通過打磨昇騰雲的訓練、推理的性能、可靠性和性價比,為中國乃至全球客户提供好用、易用的AI算力雲服務。現已全面適配了DeepSeek在內的160多個大模型,以雲服務的方式,協助客户進行模型的開發,訓練,託管和應用。昇騰AI雲服務上線以來,面向政府、金融、零售、互聯網、交通、製造等行業已經服務六百多家創新先鋒企業,加速行業智能化應用的快速落地。
在充滿突破和創新的AI發展過程中,每一個階段都會產生大量的新技術、新模式,企業唯有抓住AI時代機遇,才能搶佔發展先機。黃瑾表示,面向智能世界,華為雲致力於做好行業數字化的“雲底座”和“使能器”,堅定打造AI算力底座,以安全、穩定、高質量、持續創新的AI雲服務,賦能千行萬業應用創新,攜手夥伴、客户加速行業智能躍遷。
本文系觀察者網獨家稿件,未經授權,不得轉載。