華為發佈盤古大模型3.0，“沒時間作詩”

2023-07-07

（編輯/呂棟）

7月7日，第六屆世界人工智能大會（WAIC）正在上海如火如荼地進行，大模型是絕對的關鍵詞，而正當各大廠商的大模型在聊天、畫畫、作詩方面“爭奇鬥豔”時，華為卻推出了一個“不作詩”的大模型。

“盤古大模型不作詩，也沒有時間作詩，因為它要深入到各行各業中去，讓AI賦予各行各業價值。”7月7日下午，在華為開發者大會2023（Cloud）上，華為雲CEO張平安説道。

張平安在會上宣佈，盤古大模型3.0正式發佈，該模型是一個完全面向行業的大模型系列。

華為雲CEO張平安

據他介紹，盤古大模型3.0包括“5+N+X”三層架構：

L0層包括自然語言、視覺、多模態、預測、科學計算五個基礎大模型，提供滿足行業場景中的多種技能需求。盤古3.0為客户提供100億參數、380億參數、710參數和1000億參數的系列化基礎大模型，匹配客户不同場景、不同時延、不同響應速度的行業多樣化需求。同時提供全新能力集，包括NLP大模型的知識問答、文案生成、代碼生成，以及多模態大模型的圖像生成、圖像理解等能力，都可以供客户和夥伴企業直接調用。

L1層是N個行業大模型，華為雲既可以提供使用行業公開數據訓練的行業通用大模型，包括政務，金融，製造，礦山，氣象等大模型；也可以基於行業客户的自有數據，在盤古大模型的L0和L1層上，為客户訓練自己的專有大模型。L2層為客户提供了更多細化場景的模型，更加專注於政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、颱風路徑預測等具體行業應用或特定業務場景，為客户提供“開箱即用”的模型服務。

華為開發者大會2023（Cloud）視頻截圖

據披露，盤古大模型採用完全分層解耦設計，可以快速適配、快速滿足行業的多變需求。客户既可以為自己的大模型加載獨立的數據集，也可以單獨升級基礎模型，也可以單獨升級能力集。在L0和L1大模型的基礎上，華為雲還為客户提供了大模型行業開發套件，通過對客户自有數據的二次訓練，客户就可以擁有自己的專屬行業大模型。同時，根據客户不同的數據安全與合規訴求，盤古大模型還提供了公用雲、大模型雲專區、混合雲多樣化的部署形態。

“盤古為行業而生，就要為行業着想”，張平安表示，如今盤古大模型已在金融、金融、製造、醫藥研發、煤礦、鐵路等諸多行業發揮着巨大價值。

“大家知道其他人都可以使用行業裏最成熟的GPU，最成熟的軟件，但是華為不可以，所以華為只能依賴我們自己打造的AI的根技術。”他説道。

張平安透露，華為在最底層構建了以鯤鵬和昇騰為基礎的AI算力雲平台，以及異構計算架構CANN、全場景AI框架昇思MindSpore，AI開發生產線ModelArts等，為大模型開發和運行提供分佈式並行加速，算子和編譯優化、集羣級通信優化等關鍵能力。

“基於華為的AI根技術，大模型訓練效能可以調優到業界主流GPU的1.1倍。”他表示。

華為開發者大會2023（Cloud）視頻截圖

算力是訓練大模型的基礎。

在本次大會上，張平安宣佈單集羣2000P Flops算力的昇騰AI雲服務在華為雲的烏蘭察布和貴安AI算力中心同時上線。昇騰AI雲服務除了支持華為全場景AI框架昇思MindSpore外，還支持Pytorch、Tensorflow等主流AI框架。同時，這些框架中90%的算子，都可以通過華為端到端的遷移工具平滑遷移到昇騰平台。例如，美圖僅用30天就將70個模型遷移到了昇騰，同時華為雲和美圖團隊一起進行了30多個算子的優化以及流程的並行加速，AI性能較原有方案提升了30%。

此外，在大模型訓練過程中經常會遇到GPU故障，研發人員不得不經常重啓訓練，時間長，代價大。昇騰AI雲服務可以提供更長穩的AI算力服務，千卡訓練30天長穩率達到90%，斷點恢復時長不超過10分鐘。

本文系觀察者網獨家稿件，未經授權，不得轉載。