鵝廠發佈大模型計算集羣!算力提升3倍,4天就能訓完萬億規模大模型_風聞
量子位-量子位官方账号-04-14 14:20
明敏 發自 凹非寺
量子位 | 公眾號 QbitAI
沒想到,就在大家爭相發大模型的時候,鵝廠另闢蹊徑在算力上下手了。
剛剛,騰訊雲最新一代HCC(High-Performance Computing Cluster)高性能計算集羣,來了!
面向大模型訓練,採用最新一代騰訊雲星星海自研服務器,搭載了NVIDIA H800 Tensor Core GPU,可提供業界目前最高的3.2T超高互聯帶寬。
實測結果顯示,騰訊雲新一代集羣的算力性能較前代提升高達3倍。
以訓練自家大模型效果為例——萬億參數的混元NLP大模型訓練。在同等數據集下,將訓練時間由50天縮短到11天。如果基於新一代集羣,訓練時間將進一步縮短至4天。

在這波AIGC熱潮下,行業內算力需求空前增加,各種與智能算力相關的硬件軟件都變得更加火熱。
鵝廠這波突然放送,又帶來哪些新進展?
帶來3.2T超高通信帶寬
據瞭解,騰訊雲新一代集羣通過對單機算力、網絡架構和存儲性能進行協同優化,能夠為大模型訓練提供高性能、高帶寬、低延遲的智算能力支撐。
計算層面,服務器的單機性能是集羣算力的基礎。
在非稀疏規格情況下,新一代集羣單GPU卡支持輸出最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。
針對大模型訓練場景,騰訊雲星星海服務器採用6U超高密度設計,相較行業可支持的上架密度提高30%;利用並行計算理念,通過CPU和GPU節點的一體化設計,將單點算力性能提升至最強。

網絡層面,計算節點間存在海量的數據交互需求,隨着集羣規模擴大,通信性能會直接影響訓練效率。
騰訊自研星脈網絡,可為新一代集羣帶來了業界最高的3.2T的超高通信帶寬。
節點內外統一的AllReduce通信帶寬,實現網絡和算力的最大協同。
實測結果顯示,搭載同樣的GPU,最新的3.2T星脈網絡相較1.6T網絡,能讓集羣整體算力提升20%。


基於多軌道聚合的無阻塞網絡架構、主動擁塞控制和定製加速通信庫,騰訊雲能提供業界領先的集羣構建能力,支持單集羣高達十萬卡級別的組網規模。
在超大集羣場景下,仍然能保持優秀的通信開銷比和吞吐性能,滿足大模型訓練以及推理業務的橫向擴展。
同時,騰訊自研高性能集合通信庫TCCL,基於星脈網絡硬件平台深度優化,在全局路徑規劃、拓撲感知親和性調度、網絡故障實時告警/自愈等方面融入了定製設計的解決方案。
相對業界開源集合通信庫,為大模型訓練優化40%負載性能,消除多個網絡原因導致訓練中斷問題。
存儲層面,訓練場景下,幾千台計算節點會同時讀取一批數據集,需要儘可能縮短數據集的加載時長。新一代集羣,引入了騰訊雲最新自研存儲架構,支持不同場景下對存儲的需求。
COS+GooseFS對象存儲方案,提供多層緩存加速,大幅提升端到端的數據讀取性能;將公開數據集、訓練數據、模型結果統一存儲到對象存儲COS中,實現數據統一存儲和高效流轉。
同時,GooseFS按需將熱數據緩存到GPU內存和本地盤中,利用數據本地性提供高性能訪問。

CFS Turbo高性能並行文件存儲方案,採取多級緩存加速,基於全分佈式架構,提供100GB/s帶寬、1000萬IOPS的極致性能。並通過持久化客户端緩存技術,將裸金屬服務器本地NVMe SSD和Turbo文件系統構成統一命名空間,實現微秒級延時,解決大模型場景大數據量、高帶寬、低延時的訴求。
同時,通過智能分層技術,自動對冷熱數據分層,節省80%的存儲成本,提供極致的性價比。

底層架構之上,針對大模型訓練場景,新一代集羣集成了騰訊雲自研的TACO Train訓練加速引擎,對網絡協議、通信策略、AI框架、模型編譯進行大量系統級優化,大幅節約訓練調優和算力成本。
騰訊混元大模型背後的訓練框架AngelPTM,也已通過騰訊雲對外提供服務,能夠幫助企業加速大模型落地。
目前,騰訊混元AI大模型已經覆蓋了自然語言處理、計算機視覺、多模態等基礎模型和眾多行業、領域模型。
在騰訊雲上,企業基於TI 平台的大模型能力和工具箱,可結合產業場景數據進行精調訓練,提升生產效率,快速創建和部署 AI 應用。

此前,騰訊多款自研芯片已經量產。
其中,用於AI推理的紫霄芯片、用於視頻轉碼的滄海芯片已在騰訊內部交付使用,性能指標和綜合性價比顯著優於業界。
紫霄採用自研存算架構,增加片上內存容量並使用更先進的內存技術,消除訪存能力不足制約芯片性能的問題,同時內置集成騰訊自研加速模塊,減少與CPU握手等待時間。
目前,紫霄已經在騰訊頭部業務規模部署,提供高達3倍的計算加速性能,和超過45%的整體成本節省。
據悉,騰訊雲的分佈式雲原生調度總規模超過1.5億核,並提供16 EFLOPS(每秒1600億億次浮點運算)的智算算力。未來,新一代集羣不僅能服務於大模型訓練,還將在自動駕駛、科學計算、自然語言處理等場景中充分應用。
(最近量子位發起《中國AIGC算力產業全景報告》徵集活動,感興趣的童鞋歡迎戳下方報名表單━(*`∀´*)ノ亻!)