國產千卡GPU集羣完成大模型訓練測試,極具高兼容性和穩定性_風聞
歪睿老哥-芯片研发工程师-聚焦芯片行业的那些事,唯武侠与芯片不可辜负06-11 11:12
電子發燒友網報道(文/李彎彎)隨着人工智能技術的快速發展,對於計算能力的需求日益增長。特別是在大模型訓練方面,對算力的需求更是呈現指數級增長。傳統的單卡計算已經無法滿足大模型訓練的需求,因此,採用多卡集羣的方式成為了必然的選擇。
2023年底,摩爾線程推出首個全國產千卡千億模型訓練平台“摩爾線程KUAE智算中心”。摩爾線程相關負責人此前談到,百卡或更小規模都是實驗性的,千卡才是大集羣的基本單元,只有千卡及以上才能滿足一些基礎模型的算力需求。
國產千卡集羣完成大模型訓練測試
日前,摩爾線程官方宣佈,聯合羽人科技,已成功實現了誇娥(KUAE)千卡智算集羣與羽人系列模型解決方案的訓練兼容適配,高效完成了70億參數羽人大語言模型YuRen-7b的訓練測試。
測試結果顯示,訓練效率達到預期,誇娥千卡智算集羣展現出了高度的兼容性和穩定性。未來,羽人科技的零代碼訓練平台將遷移到摩爾線程誇娥千卡智算集羣。
在今年5月27日,摩爾線程聯合無問芯穹宣佈,雙方在近日正式完成基於國產全功能GPU千卡集羣的3B規模大模型實訓。該模型名為“MT-infini-3B”,在摩爾線程誇娥(KUAE)千卡智算集羣與無問芯穹AIStudio PaaS平台上完成了高效穩定的訓練。
MT-infini-3B模型訓練總用時13.2天,經過精度調試,實現全程穩定訓練不中斷,集羣訓練穩定性達到100%,千卡訓練和單機相比擴展效率超過90%。
5月29日,摩爾線程又與國內領先的數據智能服務商滴普科技共同宣佈,摩爾線程“誇娥”(KUAE)千卡智算集羣與滴普企業大模型Deepexi v1.0已完成訓練、推理適配,獲得產品兼容互認證明。
基於摩爾線程誇娥千卡智算集羣,滴普科技成功完成了LLaMA2 700億參數大語言模型的預訓練測試。訓練時長共計77小時,全程無故障連續運行,集羣訓練穩定性達到100%,訓練效率和兼容性均達到預期。
可以看到,摩爾線程全國產誇娥千卡智算集羣在大模型訓練上展現出足夠的實力。摩爾線程誇娥方案基於全功能MTT S4000 GPU,提供軟硬一體化的全棧解決方案,具備模型覆蓋、推理加速、CUDA兼容、斷點續訓、分佈式訓練、集羣可靠性等8大核心能力。
MTT S4000是摩爾線程推出的大模型智算加速卡,採用第三代MUSA內核,單卡支持48GB顯存容量和768GB/s的顯存帶寬,FP16算力為100TFLOPS。藉助摩爾線程自研開發工具,MTT S4000計算卡可以充分利用現有CUDA軟件生態,實現CUDA代碼零成本遷移到MUSA平台。
大模型訓練用千卡集羣搭建需要關注的重點
可以看到,國產千卡集羣已經取得實質性突破,在性能上能夠達到國際先進水平,在應用上,已經有多個大模型實訓案例。同時,國產企業也在積極構建和完善生態系統。
事實上,用於大模型訓練的千卡集羣的搭建並不容易,需要注意多方面的事情。如基礎設施搭建方面,首先要考慮硬件的選擇,需要選擇高性能的GPU或TPU作為核心計算單元,才能夠提供必要的計算能力和加速訓練過程。其次是網絡互聯,構建能夠支持萬卡級別高速互聯的智算集羣,才能確保各個計算單元之間的數據傳輸效率和穩定性。還有分佈式存儲,需要配置分佈式存儲系統,滿足大模型訓練過程中大規模數據的存儲和訪問需求。
除了GPU的選擇,網絡互聯也是千卡集羣建設需要關注的重點。大模型訓練千卡集羣互聯要求高,這樣能夠確保集羣的高效、穩定和可靠運行。
具體來看,首先需要高帶寬與與低時延,大規模GPU集羣中,模型訓練對卡間互聯的帶寬和時延提出更高要求,特別是在萬億參數量模型中,網絡節點可能由百卡組建的“超節點”構成,單次通信數據量雖小但通信頻繁,因此需要高帶寬支持以實現快速數據傳輸。低時延同樣重要,因為在大模型訓練中,任何延遲都可能影響訓練效率。
其次需要高效互聯拓撲,隨着智算中心向千卡萬卡級別的全互聯方向演進,傳統的直連拓撲結構不再適用。集羣需要採用更高效、更先進的互聯拓撲結構,如全向智感互聯(OISA)設計方案,以突破大規模卡間互聯的技術瓶頸。
再者還需要支持大規模擴展,千卡集羣的互聯方案需要支持從單機多卡到多機多卡、從單卡到千卡集羣的無縫擴展。這要求互聯方案具有良好的可擴展性,能夠隨着集羣規模的增長而靈活調整。
另外還要考慮穩定性和可靠性、安全性、兼容性等。大模型訓練千卡集羣的互聯方案有多種,如RDMA(遠程直接內存訪問)網絡,RDMA允許計算機之間的內存直接訪問,無需操作系統和CPU的干預,從而大大降低了通信延遲,提高了數據傳輸速率。在千卡集羣中,RDMA網絡可以確保節點間的高效數據傳輸,支持大規模的分佈式訓練任務。
NVLink高速互聯,NVLink是NVIDIA開發的一種GPU間高速互聯技術,專為GPU到GPU的通信而設計。它提供了比PCIe更高的帶寬和更低的延遲,適用於多GPU系統內的數據共享和通信。在千卡集羣中,可以使用NVLink連接GPU服務器,實現節點內部GPU間的高效互聯。
高性能交換機與網絡拓撲,使用高性能交換機,如InfiniBand交換機或以太網交換機,來構建集羣的網絡拓撲。網絡拓撲設計需要考慮集羣的規模和通信需求,以確保所有節點之間的低延遲和高帶寬連接。可能的網絡拓撲包括全連接、部分連接或基於交換機的層次化結構。
還有多路徑數據傳輸、全向智感互聯(OISA)設計方案等,OISA是一個新興的設計方案,旨在解決大規模卡間互聯的技術瓶頸。OISA通過優化網絡協議和拓撲結構,實現了更高的帶寬、更低的延遲和更好的擴展性。該方案適用於需要高效通信的大規模GPU集羣。
寫在最後
千卡集羣主要是用於處理大規模、高複雜度的計算任務,特別是在人工智能(AI)、深度學習、大模型訓練等領域。而此前這種集羣的建設都依賴國外的GPU,而如今,可以看到,全國產的千卡集羣正在不斷進步和完善,在當下國際GPU產品對中國限售的背景下,這對於國內人工智能,尤其是大模型的長遠發展具有深遠意義。

聲明:本文由電子發燒友原創