華為發佈盤古大模型3.0,“沒時間作詩”
贺喜格[email protected] 来撩

(編輯/呂棟)
7月7日,第六屆世界人工智能大會(WAIC)正在上海如火如荼地進行,大模型是絕對的關鍵詞,而正當各大廠商的大模型在聊天、畫畫、作詩方面“爭奇鬥豔”時,華為卻推出了一個“不作詩”的大模型。
“盤古大模型不作詩,也沒有時間作詩,因為它要深入到各行各業中去,讓AI賦予各行各業價值。”7月7日下午,在華為開發者大會2023(Cloud)上,華為雲CEO張平安説道。
張平安在會上宣佈,盤古大模型3.0正式發佈,該模型是一個完全面向行業的大模型系列。

華為雲CEO張平安
據他介紹,盤古大模型3.0包括“5+N+X”三層架構:
L0層包括自然語言、視覺、多模態、預測、科學計算五個基礎大模型,提供滿足行業場景中的多種技能需求。盤古3.0為客户提供100億參數、380億參數、710參數和1000億參數的系列化基礎大模型,匹配客户不同場景、不同時延、不同響應速度的行業多樣化需求。同時提供全新能力集,包括NLP大模型的知識問答、文案生成、代碼生成,以及多模態大模型的圖像生成、圖像理解等能力,都可以供客户和夥伴企業直接調用。
L1層是N個行業大模型,華為雲既可以提供使用行業公開數據訓練的行業通用大模型,包括政務,金融,製造,礦山,氣象等大模型;也可以基於行業客户的自有數據,在盤古大模型的L0和L1層上,為客户訓練自己的專有大模型。L2層為客户提供了更多細化場景的模型,更加專注於政務熱線、網點助手、先導藥物篩選、傳送帶異物檢測、颱風路徑預測等具體行業應用或特定業務場景,為客户提供“開箱即用”的模型服務。

華為開發者大會2023(Cloud)視頻截圖
據披露,盤古大模型採用完全分層解耦設計,可以快速適配、快速滿足行業的多變需求。客户既可以為自己的大模型加載獨立的數據集,也可以單獨升級基礎模型,也可以單獨升級能力集。在L0和L1大模型的基礎上,華為雲還為客户提供了大模型行業開發套件,通過對客户自有數據的二次訓練,客户就可以擁有自己的專屬行業大模型。同時,根據客户不同的數據安全與合規訴求,盤古大模型還提供了公用雲、大模型雲專區、混合雲多樣化的部署形態。
“盤古為行業而生,就要為行業着想”,張平安表示 ,如今盤古大模型已在金融、金融、製造、醫藥研發、煤礦、鐵路等諸多行業發揮着巨大價值。
“大家知道其他人都可以使用行業裏最成熟的GPU,最成熟的軟件,但是華為不可以,所以華為只能依賴我們自己打造的AI的根技術。”他説道。
張平安透露,華為在最底層構建了以鯤鵬和昇騰為基礎的AI算力雲平台,以及異構計算架構CANN、全場景AI框架昇思MindSpore,AI開發生產線ModelArts等,為大模型開發和運行提供分佈式並行加速,算子和編譯優化、集羣級通信優化等關鍵能力。
“基於華為的AI根技術,大模型訓練效能可以調優到業界主流GPU的1.1倍。”他表示。

華為開發者大會2023(Cloud)視頻截圖
算力是訓練大模型的基礎。
在本次大會上,張平安宣佈單集羣2000P Flops算力的昇騰AI雲服務在華為雲的烏蘭察布和貴安AI算力中心同時上線。昇騰AI雲服務除了支持華為全場景AI框架昇思MindSpore外,還支持Pytorch、Tensorflow等主流AI框架。同時,這些框架中90%的算子,都可以通過華為端到端的遷移工具平滑遷移到昇騰平台。例如,美圖僅用30天就將70個模型遷移到了昇騰,同時華為雲和美圖團隊一起進行了30多個算子的優化以及流程的並行加速,AI性能較原有方案提升了30%。
此外,在大模型訓練過程中經常會遇到GPU故障,研發人員不得不經常重啓訓練,時間長,代價大。昇騰AI雲服務可以提供更長穩的AI算力服務,千卡訓練30天長穩率達到90%,斷點恢復時長不超過10分鐘。
本文系觀察者網獨家稿件,未經授權,不得轉載。