頂級人工智能實驗室研究員預警：人類正失去理解高級推理模型的能力

2025-07-24

【環球網科技綜合報道】7月24日消息，一個由 40 名 AI 研究人員組成的團隊，包括來自 OpenAI、Google、DeepMind、Meta和 Anthropic 的技術人員，對高級 AI 推理模型日益增長的不透明度發出了警告。

在一篇新論文中，這些研究員敦促開發人員優先研究“思維鏈”（CoT）過程，這為了解 AI 系統如何做出決策提供了一個難得的窗口。他們警告説，隨着模型變得越來越先進，這種可見性可能會消失。

《財富》報道稱，在上週發表的一份論文中，包括來自 OpenAI、谷歌、DeepMind、Anthropic 和 Meta 的 40 位研究人員呼籲對人工智能推理模型的“思維鏈”過程進行更深入的研究。xAI 安全顧問 Dan Hendrycks 也位列其中。

“思路鏈”過程在 OpenAI 的 o1 和 DeepSeek 的 R1 等推理模型中可見，它允許用户和研究人員監控人工智能模型的“思考”或“推理”過程，説明它如何決定某個動作或答案，併為高級模型的內部運作提供一定的透明度。

研究人員表示，允許這些人工智能系統“用人類語言‘思考’，為人工智能安全提供了一個獨特的機會”，因為可以監控它們的“不當行為意圖”。然而，他們警告説，隨着模型的不斷進步，“無法保證當前的可見度能夠持續下去”。

論文強調，專家們並不完全理解這些模型為何使用CoT，以及它們將持續多久。作者敦促AI開發人員密切關注思維鏈推理，並指出其可追溯性最終可能成為一種內置的安全機制。

研究人員寫道：“與所有其他已知的人工智能監督方法一樣，CoT（思維鏈）監控並不完善，會導致一些不當行為被忽視。儘管如此，它仍然展現出良好的前景，我們建議進一步研究CoT的可監控性，並在現有安全方法的基礎上對CoT監控進行投資。”

他們補充道：“CoT監控為前沿人工智能的安全措施提供了寶貴的補充，讓我們得以難得地瞭解人工智能的決策方式。然而，目前的可見性程度無法保證能夠持續下去。我們鼓勵研究界和前沿人工智能開發者充分利用CoT的可監控性，並研究如何維護它。”

該論文得到了包括 OpenAI 聯合創始人 Ilya Sutskever 和人工智能“教父” Geoffrey Hinton 在內的重要人物的認可。（勃潺）