深度求索公司公佈新型AI推理方法，其下一代模型備受期待 | 南華早報

Xinmei Shen

2025-04-06

中國人工智能初創企業深度求索（DeepSeek）提出了一種提升大語言模型（LLM）推理能力的新方法，正值公眾期待該公司下一代模型之際。根據週五發表的論文，深度求索與清華大學研究人員合作開發了一項結合生成式獎勵建模（GRM）與自原則批判調優的技術。這種雙重方法旨在讓大語言模型對通用查詢提供更優質、更快速的結果。

研究人員寫道，由此產生的DeepSeek-GRM模型超越了現有方法，與強大的公共獎勵模型相比"實現了具有競爭力的性能"。獎勵建模是引導大語言模型符合人類偏好的過程。

據研究人員稱，深度求索計劃開源GRM模型，但未給出具體時間表。

這篇發表在科學論文預印本平台arXiv的學術論文發佈之際，正值業界猜測這家初創公司在全球矚目的V3基礎模型和R1推理模型之後將有何動作。

路透社上月報道，作為R1的繼任者，DeepSeek-R2最快可能於本月發佈，該公司正急於利用其日益提升的知名度。DeepSeek-R1的發佈曾以媲美頂尖模型的性價比震撼全球科技界。

關於傳聞中的R2版本發佈，深度求索公司一直保持沉默。上月中國媒體報道稱，該公司未通過官方公開渠道對此事發表評論，但其客服賬號在與商業客户的羣聊中否認了這一消息。