獨家：OpenAI正在進行代號為“草莓”的新推理技術研究 | 路透社

Anna Tong,Katie Paul

2024-07-13

OpenAI logo is seen in this illustration taken May 20, 2024. 路透社/Dado Ruvic/插圖/檔案照片 7月12日 - ChatGPT 製造商 OpenAI 正在進行一項名為“草莓”（Strawberry）的項目，該項目採用了一種新穎的方法來處理其人工智能模型，據一位知情人士和路透社審閲的內部文件透露。

這個項目的細節此前尚未報道，這個項目是由微軟支持的初創公司 OpenAI 競相展示其所提供的模型能夠提供先進的推理能力。

OpenAI 內部的團隊正在進行草莓項目，根據路透社在5月份看到的一份最近的內部 OpenAI 文件的副本。路透社無法確定文件的確切日期，該文件詳細描述了 OpenAI 打算如何使用草莓進行研究。消息人士將該計劃描述給路透社時表示這還在進行中。這家新聞機構無法確定草莓離公開使用有多近。

即使在 OpenAI 內部，草莓的工作原理也是一個嚴格保密的秘密，該人士表示。

文件描述了一個項目，該項目使用草莓模型的目標是使公司的人工智能不僅能夠生成對查詢的答案，而且能夠提前規劃足夠的內容來自主可靠地瀏覽互聯網，以執行 OpenAI 稱之為“深度研究”的任務，根據消息來源。

這是迄今為止 AI 模型無法做到的事情，根據對超過一打 AI 研究人員的採訪。

談到草莓和這個故事中報道的細節，OpenAI公司發言人在一份聲明中表示：“我們希望我們的AI模型能夠更像我們一樣看待和理解世界。對新的AI能力進行持續研究是行業中的常見做法，大家普遍認為這些系統的推理能力會隨着時間的推移而提高。”

發言人沒有直接回答關於草莓的問題。

草莓項目以前被稱為Q*，路透社去年報道，在公司內部已被視為一項突破。兩位消息人士描述，今年早些時候他們看到OpenAI員工告訴他們的Q*演示，能夠回答今天商業可用模型無法解答的棘手科學和數學問題。

據彭博社報道，週二在一次內部全員會議上，OpenAI展示了一項據稱具有新的類人推理能力的研究項目，根據彭博社的報道。OpenAI發言人證實了會議的召開，但拒絕透露內容細節。路透社無法確定展示的項目是否為草莓。熟悉此事的人表示，OpenAI希望這一創新將極大地提高其AI模型的推理能力，補充説草莓涉及一種專門的方式，在AI模型在大型數據集上進行預訓練後進行處理。

路透社採訪的研究人員表示，推理對於AI實現人類或超人類水平的智能至關重要。

雖然大型語言模型已經能夠比任何人更快地總結密集文本並撰寫優雅的散文，但這項技術在識別邏輯謬誤和玩井字棋等對人類來説直觀的常識問題上經常表現不佳。當模型遇到這類問題時，通常會“產生”虛假信息。

路透社採訪的人工智能研究人員普遍認為，在人工智能的背景下，推理涉及形成一個模型，使人工智能能夠提前規劃，反映物理世界的運作方式，並可靠地解決具有挑戰性的多步問題。

改進人工智能模型中的推理被視為解鎖模型能夠從進行重大科學發現到規劃和構建新軟件應用等各種任務的關鍵。

OpenAI首席執行官Sam Altman 今年早些時候表示，在人工智能領域，“最重要的進展領域將圍繞推理能力展開。”谷歌、Meta和微軟等其他公司也在嘗試不同的技術來改進人工智能模型中的推理能力，大多數從事人工智能研究的學術實驗室也在進行類似的實驗。然而，研究人員在大型語言模型（LLMs）是否能夠將想法和長期規劃納入到他們進行預測的方式中存在分歧。例如，現代人工智能的先驅之一、就職於Meta的Yann LeCun經常表示，LLMs無法進行類似人類推理的工作。

人工智能挑戰

知情人士表示，草莓是OpenAI克服這些挑戰的關鍵組成部分。路透社看到的文件描述了草莓的目標，但沒有説明如何實現。

在最近幾個月裏，據四位聽過公司宣傳的人透露，該公司私下向開發人員和其他外部方面發出信號，表明公司即將發佈具有更先進推理能力的技術。由於他們未經授權討論私人事務，他們拒絕透露身份。

據一位消息人士稱，草莓包括一種專門的方式，即所謂的“後訓練”OpenAI的生成式AI模型，或者調整基礎模型以在它們已經在大量通用數據上“訓練”之後以特定方式提高性能。

開發模型的後訓練階段涉及諸如“微調”之類的方法，這是當今幾乎所有語言模型都在使用的過程，有許多不同的方式，比如讓人類根據模型的響應給出反饋，並向其提供好壞答案的示例。

據瞭解此事的一位消息人士稱，草莓與2022年斯坦福開發的一種方法“自學習推理器”或“STaR”有相似之處。 STaR使AI模型能夠通過迭代地創建自己的訓練數據來“自我啓動”到更高的智能水平，並且理論上可以用於使語言模型超越人類水平的智能，斯坦福教授諾亞·古德曼告訴路透社。

“我認為這既令人興奮又令人恐懼……如果事情繼續朝着這個方向發展，我們作為人類就有一些嚴肅的事情需要考慮，”古德曼説。古德曼與OpenAI無關，也不熟悉草莓。

OpenAI 正在將 Strawberry 定位為具備執行長期任務（LHT）能力的模型，文件中提到，這指的是需要模型提前規劃並在較長時間內執行一系列動作的複雜任務，第一個消息來源解釋説。

為了實現這一目標，OpenAI 正在創建、訓練和評估模型，這些模型基於公司所稱的“深度研究”數據集，根據 OpenAI 的內部文件。路透社無法確定該數據集中包含什麼內容，以及“較長時間”意味着多長時間。

OpenAI 特別希望其模型利用這些能力通過“CUA”（計算機使用代理）的協助自主瀏覽網絡進行研究，並根據其發現採取行動，根據文件和消息來源之一。OpenAI 還計劃測試其模型在執行軟件和機器學習工程師的工作方面的能力。

通過訂閲《在競選路上》新聞簡報，獲取關於美國選舉的每週新聞和分析，以及它對世界的影響。在這裏註冊。