AI“模型崩潰”:為何研究人員發出警報 - 彭博社
Evan Gorelick
插圖:約翰·普羅文徹
喬納森·羅斯,Groq首席執行官。
攝影師:大衞·保羅·莫里斯/彭博社在科技行業的某些角落,培訓人工智能系統使用更多的在線數據將使這些工具隨着時間的推移變得更好——可能在某些任務上超越人類,這已成為一種信條。
但是一篇 新的研究論文 對這種方法提出了一些質疑,並對人工智能系統開發中可能存在的致命缺陷發出了警告。在這篇於七月發表在《自然》上的論文中,研究人員發現,當人工智能模型在包含人工智能生成內容的數據上進行訓練時——這在未來可能會越來越普遍——它們最終的性能會下降,這種現象被稱為“模型崩潰”。
這些發現增加了對 日益增長的懷疑,關於人工智能的長期發展軌跡,並且在華爾街已經質疑大型科技公司在人工智能開發上的 鉅額投資是否最終會獲得回報的時刻出現。
什麼是模型崩潰?
像 ChatGPT 這樣的 AI 聊天機器人是由 大型語言模型 驅動的,這些模型在幾乎不可想象的海量數據上進行訓練(數萬億個單詞,在某些情況下)從網頁、文章、評論區等中提取。憑藉這些龐大的數據集,AI 公司能夠構建出能夠對用户查詢給出令人震驚的相關響應的產品。
但一些 AI 觀察者提出了擔憂,認為如果這些模型訓練於由 AI 而非實際人類生成的內容,它們最終會顯著降低準確性並“崩潰”。一篇 2023 年的論文 顯示,AI 生成的人類圖像在模型重新訓練“甚至少量自身創作”的內容後變得越來越扭曲。研究人員將這一現象比作 AI 系統被自身作品“毒害”。
新論文發現了什麼?
在新的《自然》論文中,來自牛津、劍橋和其他大學的研究人員發現,使用 AI 生成內容訓練的 AI 模型會產生意想不到的、並且可能是無意義的結果。正如研究人員 解釋的那樣,一個模型的錯誤會被下一個模型加劇,使 AI 進一步遠離現實,直到提示基本上產生無意義的內容。
在一個例子中,作者展示了關於歷史英國建築的提示在輸入到經過多次 AI 生成內容重新訓練的大型語言模型中時,變成了一場關於傑克兔的難以理解的討論。
“我們證明,如果我們要維持從網絡上抓取的大規模數據訓練的好處,[模型崩潰]必須被認真對待,”研究人員在研究中寫道。
模型崩潰的風險有多大?
雖然模型崩潰在很大程度上仍然是一個理論問題,但《自然》論文指出,未來的AI模型“將不可避免地在其前身生成的數據上進行訓練”,因為AI生成的寫作和圖像在網絡上傳播並滲入在線數據集。
包括Meta、谷歌和Anthropic在內的科技公司也在嘗試使用所謂的“合成”數據訓練模型,這些數據是他們利用生成性AI創建的。從理論上講,合成選項幫助AI公司滿足對數據的無底需求,同時避免了抓取各種網站信息所帶來的法律、倫理和隱私相關問題。但模型崩潰的前景可能會打亂這些計劃。
有解決辦法嗎?
論文的發現可能只會增加AI公司獲取高質量人類生成數據的緊迫性——但這樣做可能代價高昂。ChatGPT的製造商OpenAI已經花費了數百萬美元與出版商如新聞集團和阿克塞爾·斯普林格公司建立合作關係,以許可他們的內容來訓練其模型。目前尚不清楚這些數據是否足以滿足科技公司的需求。
根據研究人員的説法,AI開發者必須保留對未被AI內容污染的原始訓練數據的訪問權是至關重要的。但在大規模上跟蹤AI生成內容並沒有簡單的方法。為此,研究人員建議那些構建AI模型的人應努力實現“社區範圍的協調”,以瞭解他們在線抓取數據的來源。
接下來閲讀這個: 人工智能製造的生物武器是華盛頓最新的安全痴迷
人工智能初創公司Groq Inc.已籌集6.4億美元的新資金,突顯了投資者對AI系統芯片創新的熱情。
該初創公司設計半導體和軟件,以優化AI任務的性能,旨在幫助緩解對AI計算能力的巨大瓶頸。在這筆交易中,該公司估值為28億美元,交易由黑巖公司資金主導,並得到了思科系統公司和三星電子公司的投資部門的支持。