DeepSeek和清華大學合作開發人工智能新模型 | 聯合早報

zaobao

2025-04-08

（北京綜合訊）中國人工智能初創公司深度求索（DeepSeek）和清華大學合作開發出一種新模型，據報可以提高大語言模型的推理能力，減少訓練量以降低運營成本，或將應用於即將推出的新一代大模型R2。

綜合彭博社、《南華早報》等報道，DeepSeek和清華大學的研究人員合作，在上週五（4月4日）發表的論文中詳細介紹一種新的強化學習方法，可提高人工智能模型的效率。

報道稱，他們開發了一種將“通用獎勵模型”（Generalist Reward Modeling，簡稱GRM）和“自我原則化批判調優”（Self-Principled Critique Tuning）相結合的方法，使大語言模型能更好更快地回答一般查詢問題。

研究人員在論文中説，這一新方法通過獎勵更準確、更易懂的回答，幫助人工智能模型更好地遵循人類偏好，在各類基準測試中的表現優於現有方法和模型。結果顯示，使用更少的計算資源就能獲得更好的性能。

論文稱這一新模型為“DeepSeek-GRM”，將以開源形式發佈，但沒有給出具體時間表。《麻省理工科技評論》報道稱，新的訓練方法或將應用於DeepSeek的下一代大模型R2。

延伸閲讀

](https://www.bdggg.com/2025/zaobao/news_2025_02_27_742173) DeepSeek今年1月推出的低成本大模型R1引起全球關注。路透社2月引述知情人士稱，這家公司急於利用不斷上升的知名度，或將提前推出原定5月發佈的R2模型。