DeepSeek和清華大學合作開發人工智能新模型 | 聯合早報
zaobao
(北京綜合訊)中國人工智能初創公司深度求索(DeepSeek)和清華大學合作開發出一種新模型,據報可以提高大語言模型的推理能力,減少訓練量以降低運營成本,或將應用於即將推出的新一代大模型R2。
綜合彭博社、《南華早報》等報道,DeepSeek和清華大學的研究人員合作,在上週五(4月4日)發表的論文中詳細介紹一種新的強化學習方法,可提高人工智能模型的效率。
報道稱,他們開發了一種將“通用獎勵模型”(Generalist Reward Modeling,簡稱GRM)和“自我原則化批判調優”(Self-Principled Critique Tuning)相結合的方法,使大語言模型能更好更快地回答一般查詢問題。
研究人員在論文中説,這一新方法通過獎勵更準確、更易懂的回答,幫助人工智能模型更好地遵循人類偏好,在各類基準測試中的表現優於現有方法和模型。結果顯示,使用更少的計算資源就能獲得更好的性能。
論文稱這一新模型為“DeepSeek-GRM”,將以開源形式發佈,但沒有給出具體時間表。《麻省理工科技評論》報道稱,新的訓練方法或將應用於DeepSeek的下一代大模型R2。
延伸閲讀
DeepSeek所在地浙江 近30萬幹部上培訓課學AI [DeepSeek據報加速推出新一代大模型
](https://www.bdggg.com/2025/zaobao/news_2025_02_27_742173)
DeepSeek今年1月推出的低成本大模型R1引起全球關注。路透社2月引述知情人士稱,這家公司急於利用不斷上升的知名度,或將提前推出原定5月發佈的R2模型。