英偉達平替?國產GPU萬卡集羣來了_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。13分钟前
最近兩年,大語言模型發展迅猛,對算力需求激增。然而,英偉達A100等高端GPU一卡難求,是挑戰還是機遇?眾多國產算力廠商開始尋找新的替代方案。
作為國內僅有的可以在功能上對標英偉達的GPU企業,摩爾線程試圖用“集羣化”的解決方案,助力國產GPU突破算力瓶頸。
7月3日,在2024世界人工智能大會召開前夕,摩爾線程宣佈其**誇娥(KUAE)智算集羣解決方案實現重大升級,從當前的千卡級別大幅擴展至萬卡規模,**以此來完成對大模型的託舉,為萬億參數級別的大模型訓練提供持續高效、穩定、且廣泛適用的通用算力支持。
AI主戰場,萬卡是標配
AI大模型時代,巨頭們都捲入一場算力軍備賽。
2023年5月10日,Google推出的超級計算機A3 Virtual Machines擁有26,000塊Nvidia H100 GPU,同時基於自研芯片搭建TPUv5p 8960卡集羣;
2024年3月,Meta分享了其兩個新的AI訓練集羣,新發布的兩個集羣均包含24,576個Nvidia Tensor Core H100 GPU,比上一代的16,000塊增長了不少;
而OpenAI開發的ChatGPT-4擁有16個專家模型共1.8萬億參數,一次訓練需要在大約25,000個A100上訓練90到100天。
事實證明,AI大模型的主戰場,萬卡已是標配。
那麼,AI大模型時代,究竟需要怎樣的算力?從大模型的發展趨勢,我們可以窺得一二。
在2020年推出的Scaling Law(尺度規律)持續作用之下,推動了大模型的**“暴力美學”趨勢**。以OpenAI的ChatGPT的發展為例,大模型訓練的方向是參數規模從百億增長到萬億,至少增長了100多倍;所需處理的數據量從TB級別增長到10+TB,至少增長了10多倍;計算量至少增加了1000多倍。這樣的大模型必須要有規模足夠大的算力,才能快速跟上技術演進。
**不只是規模夠大,AI算力還必須具有通用性。**這是因為,目前大模型背後所基於的是Transformer架構,它雖然是當下的主流架構,但並不能大一統,它自身仍在加速融合演進,從稠密到MoE,從單模態到多模態,從擴散到自迴歸。同時,除了Transformer架構之外,也不斷有其他創新架構出現,如Mamba、RWKV和RetNet等。因而,Transformer架構並不等於最終答案。
此外,AI、3D、HPC跨技術與跨領域融合不斷加速,比如利用AI+3D實現空間智能、AI+仿真計算實現物理智能、AI+科學計算實現4Science等。計算範式的演進,以及更多場景對多元算力需求的變化,都催生了對一個通用加速計算平台的渴望。
隨着模型參數量從千億邁向萬億,**大模型亟需一個超級訓練工廠,即一個“大且通用”的加速計算平台,來極大地縮短訓練時間,以實現模型能力的快速迭代。“只有在規模足夠大、計算更通用且生態兼容好的情況下,才能真正實現好用。”**摩爾線程創始人兼CEO張建中指出。
超萬卡集羣已成為大模型預訓練的標配,對於基礎設施廠商而言,有沒有萬卡集羣將是贏取AI主戰場勝負的關鍵。
然而,建設萬卡集羣並非易事。
萬卡集羣並不是一萬張GPU卡的簡單堆疊,而是一個超級複雜的系統工程。
首先,它涉及到超大規模組網互聯問題,以及如何提高集羣有效計算效率,大量實踐表明,集羣規模的線性提升無法直接帶來集羣有效算力的線性提升。
此外,訓練高穩定與高可用、故障快速定位與可診斷工具等也很關鍵,超萬卡集羣是由數千台GPU服務器、數千台交換機、數萬根光纖/數萬顆光模塊構成,訓練任務涉及上千萬器件的共同作業,任何一個部件的故障,可能都會導致訓練中斷。
再者,大模型的迭代和創新層出不窮,各種新類型的模型及模型架構的創新,要求萬卡集羣具備生態Day0級的快速遷移能力,以適應不斷變化的技術需求。同時,我們也不能侷限於當下的大模型計算加速場景,還需要考慮未來通用計算的需求。
建設萬卡集羣的道路難如登山,挑戰巨大,但這卻是一條難而正確的道路。
打造大模型訓練超級工廠
經過近四年的積累,摩爾線程在千卡集羣已獲得成功驗證的基礎上,重磅發佈了誇娥(KUAE)萬卡智算集羣方案,可以滿足大模型時代對於算力“規模夠大+計算通用+生態兼容”的核心需求,實現國產集羣計算能力再升級。
摩爾線程誇娥萬卡集羣以全功能GPU為底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算集羣為核心的基礎設施、誇娥集羣管理平台(KUAE Platform)以及誇娥大模型服務平台(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。該方案可實現開箱即用,大大降低傳統算力建設、應用開發和運維運營平台搭建的時間成本,實現快速投放市場開展商業化運營。
誇娥萬卡智算方案具備五大特點:
單一集羣規模突破萬卡,總算力超萬P;
集羣有效計算效率,目標最高可超過60%;
穩定性卓越,周均訓練有效率最高可達99%以上,平均無故障運行15天以上,最長穩定訓練30天以上;
具備強大的計算通用性,專為通用計算而設計,可以加速一切大模型;
擁有良好的CUDA兼容能力,生態適配Instant On,加速新模型Day0級遷移。
“我們希望,我們的產品可以為客户提供一個更好的、可選擇的國產化工具,在國外產品無法使用的時候,可以很容易在國產平台上快速使用起來。”張建中表示,“對於目前國內的大模型用户來説,我們的最大優勢在於生態兼容性極佳。開發者移植到我們的誇娥集羣上,幾乎是不需要修改代碼,遷移成本接近0,可以在數小時之內就完成遷移工作。”
要讓這個大模型訓練工廠真正運轉起來,還需要一眾朋友圈的支持:
智譜 AI、智源研究院、北大兔展、滴普科技、師者AI、羽人科技、樂創能源、瑞萊智慧、實在智能、積沙成塔(Reportify)、憨猴集團、億景智聯等國內大模型企業,都成功運行在摩爾線程的誇娥集羣上。值得一提的是,摩爾線程是第一家接入無問芯穹並進行大模型訓練的國產GPU公司,誇娥也是業內首個成功跑通並完整運行國產大模型的集羣。
讓國產GPU算力集羣真正用起來
萬卡集羣是個超級工程,需要產業界齊心協力參與建設。在發佈會上,摩爾線程與青海移動、青海聯通等頭部央企進行了萬卡集羣項目的戰略簽約。這些合作將進一步推動摩爾線程萬卡集羣在各地方的應用落地。
憑藉高兼容性、高穩定性、高擴展性及高算力利用率等優勢,摩爾線程誇娥智算集羣已成功斬獲多家大模型企業的認可,成為國內大模型訓練和應用的重要力量。“幾年前對於客户來説,國產算力只是備胎,而現在已經成為客户的首選,因為要保證長期供應、本地服務。”張建中介紹到。
雖然構建萬卡集羣是一項艱鉅的任務,但摩爾線程展示出了攀登的決心,這是一條難而正確的道路。但這不僅是為了解決某一家企業的算力需求,更是為了應對全行業的算力短缺問題。雖難但很有必要!
結語
摩爾線程萬卡級誇娥智算中心全棧解決方案的發佈,標誌着國產GPU在算力水平上取得了重大突破,將優先解決複雜萬億參數大模型訓練的難題。而摩爾線程的定位早已經不是一家GPU公司,而是一家專注AI的加速計算平台企業。