深度求索公司公佈新型AI推理方法,其下一代模型備受期待 | 南華早報
Xinmei Shen
中國人工智能初創企業深度求索(DeepSeek)提出了一種提升大語言模型(LLM)推理能力的新方法,正值公眾期待該公司下一代模型之際。根據週五發表的論文,深度求索與清華大學研究人員合作開發了一項結合生成式獎勵建模(GRM)與自原則批判調優的技術。這種雙重方法旨在讓大語言模型對通用查詢提供更優質、更快速的結果。
研究人員寫道,由此產生的DeepSeek-GRM模型超越了現有方法,與強大的公共獎勵模型相比"實現了具有競爭力的性能"。獎勵建模是引導大語言模型符合人類偏好的過程。
據研究人員稱,深度求索計劃開源GRM模型,但未給出具體時間表。
這篇發表在科學論文預印本平台arXiv的學術論文發佈之際,正值業界猜測這家初創公司在全球矚目的V3基礎模型和R1推理模型之後將有何動作。
路透社上月報道,作為R1的繼任者,DeepSeek-R2最快可能於本月發佈,該公司正急於利用其日益提升的知名度。DeepSeek-R1的發佈曾以媲美頂尖模型的性價比震撼全球科技界。
關於傳聞中的R2版本發佈,深度求索公司一直保持沉默。上月中國媒體報道稱,該公司未通過官方公開渠道對此事發表評論,但其客服賬號在與商業客户的羣聊中否認了這一消息。