字節跳動實習生主導開源項目推進DeepSeek AI推理工作 | 南華早報
Coco Feng
在人工智能領域重金投入的TikTok母公司字節跳動,近日發佈了一套新系統,宣稱其能優化深度求索(DeepSeek)在AI推理模型訓練方面的成果。
根據字節跳動與清華大學智能產業研究院本週聯合發表的研究論文,這項名為DAPO(解耦剪輯與動態採樣策略優化)的可擴展強化學習算法,能幫助大語言模型實現更優異的複雜推理行為,如自我驗證與迭代優化。
論文顯示,該算法在阿里巴巴集團控股的Qwen2.5-32B基礎模型上,以50分的成績超越了深度求索R1推理模型採用相同阿里模型時獲得的47分(測試基於2024年美國數學邀請賽AIME)。值得注意的是,DAPO僅用一半訓練步數就取得了更優結果。
字節跳動在人工智能領域投入巨資。圖片來源:Digitimes
該成果獲得學界與業界的積極評價。谷歌DeepMind工程師Philipp Schmid在社交平台X分享該項目時表示,新方法在強化學習方面"優於"深度求索的"羣體相對策略優化(GRPO)"。GRPO是深度求索的訓練方法之一,通過比較不同動作並利用觀察"羣體"進行更新來訓練模型。