深度求索與清華大學合作開發自我提升的AI模型——彭博社
Saritha Rai
深度求索正與清華大學合作,致力於減少其AI模型所需的訓練量以降低運營成本。
這家中國初創公司憑藉一月份推出的低成本推理模型引發市場震動,現與北京高校的研究人員聯合發表論文,詳述了一種提升模型效率的新型強化學習方法。
研究人員寫道,新方法通過獎勵更準確、更易理解的響應,幫助人工智能模型更好地遵循人類偏好。強化學習在特定應用場景中已證明能有效加速AI任務執行,但將其擴展到更廣泛領域仍具挑戰性——這正是深度求索團隊試圖通過"自原則批判調優"解決的問題。論文顯示,該策略在多項基準測試中優於現有方法,能以更少計算資源實現更優性能。
該公司表示,這些新模型被命名為DeepSeek-GRM(通用獎勵建模的縮寫),將以開源形式發佈。包括中國科技巨頭阿里巴巴集團和舊金山OpenAI在內的其他AI企業,也正在開拓即時任務執行中提升推理與自我優化能力的新領域。
總部位於加利福尼亞州門洛帕克的Meta Platforms Inc.發佈了其最新的人工智能模型系列Llama 4,並在週末宣佈這是其首個採用混合專家(MoE)架構的模型。DeepSeek的模型在很大程度上依賴MoE以更高效地利用資源,而Meta將其新發布的產品與這家位於杭州的初創公司進行了基準測試。DeepSeek尚未明確其下一代旗艦模型的發佈時間。