星河AI網絡,大模型紀元的運力答案_風聞
脑极体-脑极体官方账号-从技术协同到产业革命,从智能密钥到已知尽头09-26 22:41
隨着AI預訓練大模型的價值不斷顯現,且模型規模愈發龐大。產學各界已經形成了這樣一個共識:AI時代,算力就是生產力。
這一認知雖然正確,卻並不全面。數字化系統有存、算、網三大支柱,AI技術也是如此。如果拋開存儲和網絡談算力,那麼大模型只能獨木難支。尤其是與大模型適配的網絡基礎設施,一直以來都沒有得到有效的重視。
面對動輒“萬卡集訓”“萬里部署”“萬億參數”的AI大模型,網絡運力是整個智能化體系中不容忽視的一環。其面臨的挑戰非常突出,也正在等待可以破局的答案。
(華為數據通信產品線總裁 王雷)
9月20日,華為全聯接大會2023期間舉辦了“星河AI網絡,加速行業智能化”為主題的數通峯會。各界代表共同探討了AI網絡技術的變革與發展趨勢。會上,華為數據通信產品線總裁王雷正式發佈星河AI網絡解決方案。他表示,大模型讓AI更聰明,但訓練一個大模型的成本非常高,同時還要考慮AI人才的成本。因此,在行業智能化階段,集中建設大算力集羣,面向社會提供智算雲服務,才能真正讓人工智能深入千行萬業。華為發佈新一代星河AI網絡解決方案,面向智能時代,打造超高吞吐、長穩可靠、彈性高併發的新型網絡基礎設施,助力AI普惠,加速行業智能化。
藉此機會,我們一起了解大模型崛起,給智算數據中心帶來的網絡挑戰,以及華為星河AI網絡為什麼是這些問題的最優解。
如果説,一個模型、一條數據、一個計算單元,都是AI時代的一道星光。那麼只有把它們高效穩定地聯接起來,才能組成智能世界的燦爛星河。
大模型爆發,隱藏的網絡激流
我們知道,AI模型分為訓練和推理部署兩個階段。伴隨着預訓練大模型的興起,這兩個階段也分別發生了巨大的AI網絡挑戰。
首先是在大模型的訓練階段。伴隨着模型規模與數據參數愈發龐大,大模型訓練開始需要千卡甚至萬卡規模的計算集羣來完成。這也意味着大模型訓練必然發生在具備AI算力的數據中心當中。
在目前階段,智算數據中心的成本是非常高昂的。根據行業數據,每建設100P算力的集羣,成本就要達到4億人民幣。以某國際知名大模型為例,其訓練過程中每天的算力花費就要達到70萬美元。
如果數據中心網絡的聯接能力不暢,造成大量算力資源折損在網絡傳輸過程中,那麼給數據中心與AI模型帶來的損失是難以估量的。相反,如果同等算力規模下,集羣訓練效率更高,那麼數據中心將獲得巨大商機。而負載率等網絡因素,直接決定了AI模型的訓練效率。另一方面,由於AI算力集羣的規模不斷擴大,其複雜度也在相應增長,於是其故障發生概率也在提升。打造長穩可靠的集羣網絡,是數據中心提升投入產出比的重要支點。
在數據中心之外,AI模型的推理部署場景中,同樣也可以看到AI網絡的價值體現。大模型的推理部署主要依靠雲服務,而云服務商必須在算力資源有限的情況下,儘量服務更大的客户,以此實現大模型的商業價值最大化。如此一來,用户越多整個雲網結構就會越複雜。如何能夠提供長期穩定的網絡服務,成為了雲計算服務商新的挑戰。
除此之外,在AI推理部署的最後一公里,政企用户面臨着網絡質量提升的需求。在真實場景下,1%的鏈路丟包會導致TCP性能下降50倍,也就是100Mbps的寬帶,實際能力不足2Mbps。因此,提升應用場景本身的網絡能力,才可以保證AI算力順暢流動,實現真正的普惠AI。
由此不難看出,在AI大模型的誕生、傳輸、應用全流程中,每個環節都面臨着網絡升級的挑戰與需求。大模型時代的運力難題,亟待破局解題。
從星光到星河,智能時代的網絡破局思路
大模型崛起帶來的網絡難題是一個多環節、全流程的挑戰。因此,對應的破局思路也必須是一個系統性工程。
華為提出,面向智算雲服務的新型網絡基礎設施,需要支持 “訓練高效能”“算力不停歇”“普惠AI服務”。這三項能力,對應了AI大模型從訓練到推理部署的全場景。不僅着眼於單一需求滿足,單一技術的升級,而是全面推進AI網絡迭代,正是華為數據通信帶給行業獨特的破局思路。
具體而言,AI時代的網絡基礎設施需要包含如下能力:
首先,在訓練場景網絡需要最大化發揮出AI計算集羣的價值。通過打造具備超大規模聯接能力的網絡,實現AI大模型的訓練高效能。
其次,為了保障AI任務的穩定可持續,需要打造長穩可靠的網絡能力,保障月級訓練不中斷,同時要有秒級的穩定定界、定位和回覆,儘可能降低訓練中斷時常。這就是算力不停歇的能力建設。
再次,AI推理部署過程中,要求網絡具有彈性高併發的特質,可以智能編排海量用户流,提供最佳的AI落地體驗,同時可以對抗網絡劣化衝擊,保障不同區域間AI算力順暢流動,這也就實現了“普惠AI服務”的能力建設。
秉承這樣的破局思路,華為最終帶來了星河AI網絡解決方案。它把散落的AI星光,基於強大運力聯成一片星河。
星河AI網絡,給大模型紀元一個運力答案
華為全聯接大會2023的期間,華為分享了對以大算力、大存力、大運力加速AI大模型打造的發展願景。新一代華為星河AI網絡解決方案,就可以説是面向智能時代,華為為大模型帶來的運力答案。
對於智能數據中心來説,華為星河AI網絡是以網強算的最優解。
其所具備的超高吞吐網絡特質,可以面向智算中心的AI集羣提供提升網絡負載率,強化訓練效率的重要價值。具體來説,星河AI網絡智算交換機具有業界最高密400GE和800GE端口能力,僅2層交換網絡就可以實現1萬8000卡的無收斂集羣組網,從而支持超萬億參數的大模型訓練。組網層次一旦減少,就意味着數據中心能夠節省了大量的光模塊成本,同時提高對網絡風險的可預測性,獲得更加穩定的大模型訓練能力。
星河AI網絡可以支持網絡級負載均衡NSLB,能夠將負載率從50%提升到98%,相當於實現AI集羣超頻運行,繼而將訓練效率提升20%,達成高效能訓練的預期。
對於雲服務廠商來説,星河AI網絡可以提供穩定可靠的算力保障。
其能夠在DCI算間互聯場景,提供多路徑智能調度等技術,自動識別、主動適應業務高峯流量的衝擊,可以從百萬數據流中識別大小流,合理分配到10萬路徑,從而實現網絡0擁塞,彈性保障高併發的智算雲服務。
對於政企用户來説,星河AI網絡可以應對網絡劣化問題,保障普惠化的AI算力。
其能夠在DCA入算場景支持彈性抗劣化能力,採用Fillp技術優化TCP協議,可以在1%丟包率的情況下將帶寬負載率從10%提升至60%,從而保障從都市圈到偏遠地區的算力順暢流動,加速AI服務的普惠應用。
如此一來,大模型從訓練到部署各個環節的網絡需求都被打通。從智算中心到千行萬業,都有了以網強算的發展支點。
一個屬於智能化的時代,一個由大模型開啓的科技新紀元剛剛開始。星河AI網絡,給智能時代寫下了一個關於運力的答案。