華為宣稱採用自研昇騰芯片的AI訓練方法優於深度求索 | 南華早報
Hannah Wang
研究華為技術有限公司大語言模型(LLM)盤古的科研人員宣稱,他們通過運用這家受美國製裁企業的專有硬件,改進了深度求索(DeepSeek)原有的人工智能(AI)訓練方法。由22名核心貢獻者和56名研究人員組成的華為盤古團隊上週發表論文,提出了分組專家混合(MoGE)的概念。這是對專家混合(MoE)技術的升級版本,該技術對深度求索開發高性價比AI模型起到了關鍵作用。
論文指出,雖然MoE能以較低執行成本實現大模型參數並增強學習能力,但常導致效率低下。這是由於所謂"專家"的激活不均衡,在並行多設備運行時可能影響性能。
研究人員表示,改進後的MoGE"在專家選擇過程中進行分組,更好地平衡專家工作負載"。
在AI訓練中,“專家"指大模型內部的專用子模型或組件,每個組件專用於處理特定任務或數據類型。這種設計使整體系統能利用多樣化專業知識來提升性能。
01:38
英偉達CEO黃仁勳訪華期間稱中國為"關鍵市場”,儘管美國實施AI芯片禁令
英偉達CEO黃仁勳在北京訪問期間稱中國為"關鍵市場",儘管美國禁止AI芯片出口
這一進展正值關鍵時刻,儘管美國限制英偉達等先進AI芯片的出口,中國AI企業仍致力於通過算法優化和軟硬件協同來提升模型訓練與推理效率。