芯片問題不用擔心,華為是如何應用“系統論”的?

(文/觀察者網 呂棟)
“芯片問題其實沒必要擔心,用疊加和集羣等方法,計算結果上與最先進水平是相當的。”近期,華為總裁任正非的一次公開發聲,增強了社會各界對中國AI發展的信心。
我們都知道,中國已經形成了“百模千態”的大模型產業,有多個大模型走在全球前列。但無論AI產業如何發展,算力都是驅動模型演進的根本動力。隨着外部技術封鎖步步緊逼,國產算力能否擔當大用?是否只能做推理而不能做複雜訓練?很多人其實心裏沒底。
“我們單芯片還是落後美國一代,我們用數學補物理,非摩爾補摩爾,用羣計算補單芯片,在結果上也能達到實用狀況。”任正非的公開發聲,給國內AI產業吃下了一顆“定心丸”。
帶着對國產算力發展的關心,觀察者網與華為2012實驗室的技術專家的做了一次交流,我們瞭解到,昇騰算力不僅實現推理性能全球領先,同時系統穩定性也保持在高水平,能高效訓出世界一流的萬億參數大模型。尤其是CloudMatrix 384超節點技術,以系統補單點,從堆芯片到拼架構,核心指標比肩英偉達,成為中國AI發展的堅實算力底座。

芯片問題為何不用擔心?
在外部制裁圍堵下,芯片問題就像“達摩克里斯之劍”一樣,一直懸在中國產業界頭上。尤其隨着中美AI競爭愈發激烈,美國一方面竭力遏制中國先進芯片製造的能力,另一方面又不斷收緊對英偉達高端芯片的出口管制,試圖讓中國AI產業在“算力囚籠”中止步不前。
但危中也有機。行業的發展趨勢是,當Transformer這樣的大型神經網絡模型橫空出世,萬億參數模型開始湧現,對算力和顯存的需求呈爆炸式增長,單個GPU甚至單個服務器都難以招架,集羣算力成為大勢所趨,這也給中國用系統方法解決算力困境帶來契機。
説起“系統論”,老一輩中國人可能並不陌生。錢學森的《論系統工程》,核心思想就是把研究對象看做一個整體而不是孤立的點,通過整體優化彌補單點落後。
華為制裁中突圍,正是受到系統工程的啓發。技術專家對觀察者網表示,算力基礎設施是複雜的系統,華為把各個部分打通了,在內部組織了算力會戰,把華為雲、模型、底座、芯片、硬件工程、基礎軟件的研發力量集結在一起,跨部門作戰,深度協同。這樣的環境和機制,能夠產生協同效應和系統工程的整合,實現了“大雜燴”技術的有效利用和協同創新。
基於系統工程,華為構建了巨型算力基礎設施CloudMatrix 384超節點,通過全對等高速互聯架構,讓384張昇騰卡可以像一台計算機一樣工作。它的算力總規模達300Pflops,是英偉達旗艦NVL72的1.7倍;網絡互聯總帶寬達269TB/s,比英偉達NVL72提升107%;內存總帶寬達1229TB/s,比英偉達NVL72提升113%。更關鍵的是,它還能擴展為包含數萬卡的Atlas 900 SuperCluster超節點集羣,未來可以支撐更大規模的模型演進。

“超節點是複雜系統,單卡的技術指標並不代表系統的效能,我們‘系統工程’,要達到的是系統最佳,而不是單點最強。解決這些超複雜系統的問題需要懂理論,如系統論,控制論,信息論,計算數學等;同時,我們通過數學的方法對計算系統進行建模、仿真,想辦法把每一部分都用起來,做到不浪費,各個部分完美配合,高效協同。”華為技術專家表示。
我們都知道,芯片製造遵循着“摩爾定律”,但前提是獲取先進的設備材料。在制裁圍堵下,華為通過複雜系統優化,實現了“非摩爾補摩爾”的效果,讓單芯片短板不再是制約。
華為技術專家指出,單芯片製程從7納米到5納米、3納米、2納米,每代性能提升不超過20%,總體能提升50%左右。華為通過高效的超節點系統,提升了芯片算力利用率。“MoE大模型訓練,我們以前MFU(模型算力利用率)是30%,業界也是差不多這個水平,我們最新公佈的數據提升到41%,實驗室是45%多。從30%提升到45%,利用率相當於提升了50%。在硬件什麼也沒有改變的情況下,通過系統工程的優化,資源的高效調度,一定程度彌補了芯片工藝的不足。”
“西方不斷打補丁,我們重新定義架構”
華為被制裁的這幾年,算力產業其實也處在變革過程中。
隨着大模型Scaling Law(尺度定律)的持續演進,整個AI行業產生了巨量算力需求。但是傳統的計算集羣已經出現瓶頸,無限制的堆卡並不能帶來算力的線性提升,反而會產生“內存牆”、“規模牆”和“通信牆”的問題。這是因為在集羣內部,算力卡之間和服務器之間並不是獨立工作,而是需要邊計算邊“溝通”,如果通信能力跟不上,就會出現算力閒置。
過去8年間,單卡硬件算力增長了40倍,但節點內總線帶寬只增長了9倍,跨節點的網絡帶寬只增長了4倍,這使得集羣網絡通信成為當前大模型訓練和推理的最大挑戰。因此如果不能提升通信效率,單純把384張昇騰卡堆起來,計算效果並不一定就比72張英偉達卡更好,因為卡間和服務器間的通信開銷會抵消算力增加的收益,導致有效算力不升反降。

作為算力產業先行者,英偉達早早意識到這個問題。黃仁勳的做法是,把之前消費級顯卡上的NVLink技術移植到計算集羣中,相當於給GPU之間搭建一條“專用超寬車道”並且把多顆GPU、CPU、高帶寬內存、NVLink/NVSwitch等高度集成,打造了NVL72超節點。
但問題是,NVLink只能用於英偉達自家GPU之間的通信,節點內的NPU、FPGA等非GPU異構硬件,並不能走這條“超寬車道”,還是要通過效率較低的PCIe協議走CPU中轉,同時節點之間通過以太網/InfiniBand等協議跨機互聯,在巨量計算中也存在帶寬堵點。
不同於這種做法,華為CloudMatrix 384超節點對計算架構進行重構,徹底打破了傳統以CPU為中心的馮諾依曼架構,創新提出了“全對等架構”。它通過3168根光纖和6912個400G光模塊構建了高速互聯總線,並把總線從服務器內部擴展到整機櫃、甚至跨機櫃,最終將CPU、NPU、DPU、存儲和內存等資源全部互聯和池化,這樣做就能去除掉了繁多的中轉環節,從而實現真正的點對點互聯,進而實現更大的算力密度和互聯帶寬。
“西方是繼承發展,任總形象地比喻為‘百納衣’,就是衣服破了以後不斷地打補丁,協議不同,互通要轉換的,包頭套包頭,有效載荷就很小了。我們重新定義了對等的架構,統一了所有的通信協議,互通就不需要轉換,提升了有效載荷。”華為技術專家對觀察者網説道。
“打鐵還需自身硬,充分滿足國內需要”
華為構建了這麼強大的昇騰算力,實際應用效果怎麼樣?尤其是在英偉達高端算力被封鎖的情況下,昇騰算力到底能不能給中國AI發展帶來底氣和信心?這是行業內外真正關心的。
關注產業發展的估計都注意到了,華為從5月中旬開始密集披露一批技術報告。從中不難發現,昇騰算力不僅能夠支撐工業級推理能力,實現Day0遷移、一鍵部署,還高效訓練出了72B、718B等不同尺寸的盤古大模型。同時公佈了盤古Ultra MoE模型架構和訓練方法的技術報告,披露大量技術細節,充分展現了昇騰在超大規模MoE訓練性能上的跨越。
相比推理,大模型訓練對算力基礎設施的要求更高。在單芯片落後一代的情況下,系統工程依然是華為突圍的抓手。比如在超大規模MoE模型訓練過程中,面對系統擁塞、資源不匹配的問題,華為創造性地對計算、內存、通信的極致優化調度,並結合昇騰特點的親和設計和數學算法創新,實現了超級並行,獲得“動態指標”的提升。例如萬卡昇騰集羣上,訓練做到了萬卡集羣41%的算力利用率,98%的集羣可用性,95%的線性度,這些都是用户使用中能感受到的真實算力。

坦白講,大規模計算集羣最終比拼的就是綜合能力,而不是單芯片能力。比如在散熱這塊,大量芯片堆在一起會產生巨大熱量,散不出去的話就會導致系統癱瘓。再比如在光通信領域,光纖雖然有高帶寬和高速率的優勢,但功耗高且比較脆弱,一個小問題都可能導致系統斷聯。
“追求整體最優,系統工程是每個廠商追求的目標,就看能不能做到。超節點架構要全互聯、不收斂、大帶寬、低時延,還要有軟件系統把資源管理起來,實現超級並行和高效調度,要讓系統平穩工作,需要有大動態的供電,高效的散熱等硬件工程能力。”華為技術專家説道。
華為幾十年在電子信息領域,尤其是硬件工程和基礎軟件方面有很深的積累,不僅在光通信領域領跑行業,並且散熱工程也是行業最強,有能力把複雜系統做好。大概10年前,華為就在海外設立研究所,專門研究熱理論和熱工程,86個實驗室中有一個是熱學實驗室,不管是液冷還是風冷,已經是業界最領先的水平,這些都成為大規模訓練高可靠的堅實保障。
在雲計算中心,華為云為超節點配備了全科專業醫生“昇騰雲腦”,還打造了恆温“訓練基地”,採用液冷冷板散熱技術,讓冷媒直接接觸發熱部件,散熱效率比傳統風冷提升了50%。再加上iCooling智能温控系統,每五分鐘動態調整策略,無論外部温度怎麼變化,都能讓數據中心保持最佳狀態。最終,數據中心的能效比PUE做到1.12,比行業平均節能70%。
“競爭力要上去,最終打鐵還需自身硬。我們會充分滿足國內客户的需要,不會掉鏈子。”華為技術專家對觀察者網表示,“我們的理念也是這樣,通過實實在在的技術改進,把競爭力提上去,讓客户用起來、用好,這是我們努力的方向。最困難的時候已經過去了,這次披露也讓大家感受到了我們的開放和進步,增強客户對我們的信心。”
“開放會使我們更加進步”
在行業中,華為是少有的既做算力基礎設施,又做基礎大模型的。這樣的優勢是,模型和算力底座團隊可以深度協同,通過模型的訓練,發現其中的挑戰和算力問題,牽引算力改進,算力改進又支撐模型訓推的進步。這樣的牽引和支撐驅動機制,更容易發現深層次的問題。
華為同時也是開放的。技術專家對觀察者網坦言,昇騰算力支持“百模千態”,包括千問、DeepSeek等國內大模型都開放支持,華為把訓練盤古過程中的創新技術和方案毫無保留地披露出來,有相關的代碼、技術文檔,還派專家到現場去支持客户,支持他們用好昇騰。
“我們大模型toC應用是使能華為手機競爭力的提升為主;toB行業像礦山、鋼鐵、電力、交通、能源、醫療、金融、港口等是我們的主戰場,跟客户沒有利益衝突關係,所以客户也不擔心。”華為技術專家坦言,在行業智能化應用方面,華為重點聚焦關係到國計民生的國家“關基行業”,同時各行各業的需求也都會全力滿足,支持好中國在AI時代的算力需求。

不僅對客户保持開放,華為也對開發者和高校深度開放底層能力。比如昇騰異構計算架構CANN,堅持深度開放策略,一開始就支持PyTorch、TensorFlow等業界開源的框架,目前深度貢獻開發者已有6000多人,通過在操作系統、算子算法、整圖優化及加速庫等各個層面持續創新,與互聯網、運營商、金融等30多個夥伴,開發了260多個高性能算子。
“華為每年在基礎研究上投入很大,基礎研究我們是很開放的,除了自己研究,也大力資助高校,與高校聯合研究和技術合作,‘一杯咖啡吸收宇宙能量,一桶漿糊粘接世界智慧’,不斷沉澱組織能力,做到‘根深’。我們的科學家、專家也會深入業務的會戰,把理論和技術應用到業務中,創造性解決實際業務難題,提升產品競爭力,創造商業價值,實現‘葉茂’。在華為,我們把研究和創新有機地結合起來,實現‘根深葉茂’。”華為技術專家表示。
“開放會促使我們更加進步。”任正非的這一觀點不僅適用於國家,同樣適用於企業。可以説,正是堅持開放和創新,才使得華為不斷取得技術突破,在單點技術被限制的時候,通過系統工程重獲優勢。在日益複雜的國際環境下,昇騰算力平台在訓練和推理上的亮眼表現,不僅給行業提供了英偉達之外的新選擇,也為中國AI產業發展吃下了一顆“定心丸”。