星河AI網絡，大模型紀元的運力答案_風聞

脑极体-脑极体官方账号-从技术协同到产业革命，从智能密钥到已知尽头09-26 22:41

2023-09-26

隨着AI預訓練大模型的價值不斷顯現，且模型規模愈發龐大。產學各界已經形成了這樣一個共識：AI時代，算力就是生產力。

這一認知雖然正確，卻並不全面。數字化系統有存、算、網三大支柱，AI技術也是如此。如果拋開存儲和網絡談算力，那麼大模型只能獨木難支。尤其是與大模型適配的網絡基礎設施，一直以來都沒有得到有效的重視。

面對動輒“萬卡集訓”“萬里部署”“萬億參數”的AI大模型，網絡運力是整個智能化體系中不容忽視的一環。其面臨的挑戰非常突出，也正在等待可以破局的答案。

（華為數據通信產品線總裁王雷）

9月20日，華為全聯接大會2023期間舉辦了“星河AI網絡，加速行業智能化”為主題的數通峯會。各界代表共同探討了AI網絡技術的變革與發展趨勢。會上，華為數據通信產品線總裁王雷正式發佈星河AI網絡解決方案。他表示，大模型讓AI更聰明，但訓練一個大模型的成本非常高，同時還要考慮AI人才的成本。因此，在行業智能化階段，集中建設大算力集羣，面向社會提供智算雲服務，才能真正讓人工智能深入千行萬業。華為發佈新一代星河AI網絡解決方案，面向智能時代，打造超高吞吐、長穩可靠、彈性高併發的新型網絡基礎設施，助力AI普惠，加速行業智能化。

藉此機會，我們一起了解大模型崛起，給智算數據中心帶來的網絡挑戰，以及華為星河AI網絡為什麼是這些問題的最優解。

如果説，一個模型、一條數據、一個計算單元，都是AI時代的一道星光。那麼只有把它們高效穩定地聯接起來，才能組成智能世界的燦爛星河。

大模型爆發，隱藏的網絡激流

我們知道，AI模型分為訓練和推理部署兩個階段。伴隨着預訓練大模型的興起，這兩個階段也分別發生了巨大的AI網絡挑戰。

首先是在大模型的訓練階段。伴隨着模型規模與數據參數愈發龐大，大模型訓練開始需要千卡甚至萬卡規模的計算集羣來完成。這也意味着大模型訓練必然發生在具備AI算力的數據中心當中。

在目前階段，智算數據中心的成本是非常高昂的。根據行業數據，每建設100P算力的集羣，成本就要達到4億人民幣。以某國際知名大模型為例，其訓練過程中每天的算力花費就要達到70萬美元。

如果數據中心網絡的聯接能力不暢，造成大量算力資源折損在網絡傳輸過程中，那麼給數據中心與AI模型帶來的損失是難以估量的。相反，如果同等算力規模下，集羣訓練效率更高，那麼數據中心將獲得巨大商機。而負載率等網絡因素，直接決定了AI模型的訓練效率。另一方面，由於AI算力集羣的規模不斷擴大，其複雜度也在相應增長，於是其故障發生概率也在提升。打造長穩可靠的集羣網絡，是數據中心提升投入產出比的重要支點。

在數據中心之外，AI模型的推理部署場景中，同樣也可以看到AI網絡的價值體現。大模型的推理部署主要依靠雲服務，而云服務商必須在算力資源有限的情況下，儘量服務更大的客户，以此實現大模型的商業價值最大化。如此一來，用户越多整個雲網結構就會越複雜。如何能夠提供長期穩定的網絡服務，成為了雲計算服務商新的挑戰。

除此之外，在AI推理部署的最後一公里，政企用户面臨着網絡質量提升的需求。在真實場景下，1%的鏈路丟包會導致TCP性能下降50倍，也就是100Mbps的寬帶，實際能力不足2Mbps。因此，提升應用場景本身的網絡能力，才可以保證AI算力順暢流動，實現真正的普惠AI。

由此不難看出，在AI大模型的誕生、傳輸、應用全流程中，每個環節都面臨着網絡升級的挑戰與需求。大模型時代的運力難題，亟待破局解題。

從星光到星河，智能時代的網絡破局思路

大模型崛起帶來的網絡難題是一個多環節、全流程的挑戰。因此，對應的破局思路也必須是一個系統性工程。

華為提出，面向智算雲服務的新型網絡基礎設施，需要支持 “訓練高效能”“算力不停歇”“普惠AI服務”。這三項能力，對應了AI大模型從訓練到推理部署的全場景。不僅着眼於單一需求滿足，單一技術的升級，而是全面推進AI網絡迭代，正是華為數據通信帶給行業獨特的破局思路。

具體而言，AI時代的網絡基礎設施需要包含如下能力：

首先，在訓練場景網絡需要最大化發揮出AI計算集羣的價值。通過打造具備超大規模聯接能力的網絡，實現AI大模型的訓練高效能。

其次，為了保障AI任務的穩定可持續，需要打造長穩可靠的網絡能力，保障月級訓練不中斷，同時要有秒級的穩定定界、定位和回覆，儘可能降低訓練中斷時常。這就是算力不停歇的能力建設。

再次，AI推理部署過程中，要求網絡具有彈性高併發的特質，可以智能編排海量用户流，提供最佳的AI落地體驗，同時可以對抗網絡劣化衝擊，保障不同區域間AI算力順暢流動，這也就實現了“普惠AI服務”的能力建設。

秉承這樣的破局思路，華為最終帶來了星河AI網絡解決方案。它把散落的AI星光，基於強大運力聯成一片星河。

星河AI網絡，給大模型紀元一個運力答案

華為全聯接大會2023的期間，華為分享了對以大算力、大存力、大運力加速AI大模型打造的發展願景。新一代華為星河AI網絡解決方案，就可以説是面向智能時代，華為為大模型帶來的運力答案。

對於智能數據中心來説，華為星河AI網絡是以網強算的最優解。

其所具備的超高吞吐網絡特質，可以面向智算中心的AI集羣提供提升網絡負載率，強化訓練效率的重要價值。具體來説，星河AI網絡智算交換機具有業界最高密400GE和800GE端口能力，僅2層交換網絡就可以實現1萬8000卡的無收斂集羣組網，從而支持超萬億參數的大模型訓練。組網層次一旦減少，就意味着數據中心能夠節省了大量的光模塊成本，同時提高對網絡風險的可預測性，獲得更加穩定的大模型訓練能力。

星河AI網絡可以支持網絡級負載均衡NSLB，能夠將負載率從50%提升到98%，相當於實現AI集羣超頻運行，繼而將訓練效率提升20%，達成高效能訓練的預期。

對於雲服務廠商來説，星河AI網絡可以提供穩定可靠的算力保障。

其能夠在DCI算間互聯場景，提供多路徑智能調度等技術，自動識別、主動適應業務高峯流量的衝擊，可以從百萬數據流中識別大小流，合理分配到10萬路徑，從而實現網絡0擁塞，彈性保障高併發的智算雲服務。

對於政企用户來説，星河AI網絡可以應對網絡劣化問題，保障普惠化的AI算力。

其能夠在DCA入算場景支持彈性抗劣化能力，採用Fillp技術優化TCP協議，可以在1%丟包率的情況下將帶寬負載率從10%提升至60%，從而保障從都市圈到偏遠地區的算力順暢流動，加速AI服務的普惠應用。

如此一來，大模型從訓練到部署各個環節的網絡需求都被打通。從智算中心到千行萬業，都有了以網強算的發展支點。

一個屬於智能化的時代，一個由大模型開啓的科技新紀元剛剛開始。星河AI網絡，給智能時代寫下了一個關於運力的答案。