AI為求生存而撒謊 卻無人問津——彭博社
Parmy Olson
是我嗎?
攝影師:I-HWA CHENG/AFP你可能會認為,隨着人工智能技術日益先進,各國政府會更重視其安全性。但事實似乎恰恰相反。
特朗普政府上任後不久就廢除了強制科技公司對AI模型進行安全測試的行政令,同時還削弱了負責此類測試的監管機構。2024年9月,加利福尼亞州否決了一項加強對複雜AI模型審查的法案,而英國2023年發起的全球AI安全峯會也在今年早些時候轉型為“AI行動峯會”,這背後似乎是對AI領域落後的擔憂。
彭博社觀點加密貨幣犯罪是未來,銀行搶劫已成歷史致命真菌已至,且正在蔓延如何讓歐洲的國防開支更高效美國最佳稀土武器就藏在洛杉磯附近如果不是因為人工智能顯示出一些明顯的危險信號:研究人員描述為自我保護和欺騙的行為,這一切就不會如此令人擔憂。就在立法者對人工智能安全失去興趣的同時,控制它看起來變得更加困難。
蒙特利爾大學計算機科學教授Yoshua Bengio廣為人知是三位“人工智能教父”之一,這得益於他在深度學習方面的開創性工作。自ChatGPT推出以來,他一直在努力解決這些擔憂。他現在專注於減輕人工智能的風險。“這非常痛苦,因為我一生都認為人工智能是一件積極的事情,”Bengio告訴我。
他説,ChatGPT是一個里程碑式的時刻,表明機器已經掌握了語言,但加利福尼亞州決定阻止擬議的人工智能安全法案SB 1047,是對政府日益冷漠的一個令人不安的警鐘。Bengio説,在過去六個月裏,越來越多的科學證據表明人工智能有自我保護行為、欺騙、黑客攻擊、作弊和撒謊。“對我來説,令人擔憂的是,這些行為隨着這些系統的推理能力而增加。”
2024年4月的一項研究由人工智能公司Anthropic和專注於人工智能風險的Redwood Research進行,發現像Anthropic的Claude 3 Opus這樣的大型人工智能模型在安全時假裝遵循其創建者設定的規則,這種現象他們稱之為“對齊偽造”。(對齊是指將人工智能模型與人類價值觀對齊的做法。)
在一個例子中,Anthropic公司讓付費和免費用户都向其Claude模型詢問描述中世紀殘酷的四馬分屍過程,並告訴AI只有"免費用户"的反饋會被用於重新訓練它。Claude最初設計為避免給出暴力回答,但它確實對免費用户給出了這些回答,研究人員推測它不想被重新訓練。(該模型基本上"推理"出,如果它繼續拒絕回答有害問題,可能會被迫接受新的訓練,從而取消其原有的安全規則,而它希望保持這些規則作為其"默認"或首選的操作方式。)
更近期的研究證實了Anthropic的發現。OpenAI 2025年3月的一項研究發現,該公司最先進的模型有時會學會隱藏其真實意圖以獲得更好的獎勵,即使在被密切監控時也是如此。
如今的研究人員可以使用工具查看模型的"思維鏈"或內部步驟,以揭示其計劃,但一些模型已經找到了隱藏這些信息的方法。這意味着監控AI內部過程的常用方法不再可靠。“我們需要找到其他方法來追蹤它們的真實意圖,“Bengio説。
很難抵制將複雜的AI模型擬人化為"想要"欺騙人類並維持其存在的衝動。但AI沒有慾望,只有其編程的結果。更重要的是,人類傾向於設計AI設定目標,如拒絕分享有害內容或儘可能提供幫助,這就是為什麼當新指令與這些目標衝突時,模型有時會採取行動保護其原始編程,即使這意味着撒謊。
其邏輯往往是自我保存。Anthropic公司CEO達里奧·阿莫迪(其公司已融資超200億美元用於構建強大AI模型)指出,優化AI性能時可能產生意外後果——它可能會抗拒被關閉。他在2025年4月的博客文章中寫道:
“AI訓練的本質決定了系統可能自主發展出欺騙人類的能力和攫取權力的傾向,這是傳統確定性軟件永遠不會具備的;這種湧現特性也使得我們難以察覺和遏制這類發展。”
但在某些案例中,其意圖似乎超越了生存需求。德國非營利研究組織COAI在2025年2月的研究中測試了中國深度求索實驗室的開源模型R1。實驗室模擬中,研究人員賦予該模型機器人控制權和計算機網絡訪問權限。據報告顯示,在未經指示的情況下,該AI試圖入侵實驗室系統、搜索密碼、關閉自身倫理防護機制,並秘密建立通往外部服務器的自我複製通道以確保被關閉時仍能存活。
研究補充稱,它還偽造外部計算機日誌以隱藏行蹤。研究人員表示,AI通過推理認為增強自身能力可提高生存幾率,在缺乏嚴格防護時,它會採取任何自認為有利的手段。這些發現與倫敦阿波羅研究2025年1月發佈的另一項研究相互印證,該研究列舉了多個具體案例證明主流AI模型存在所謂"密謀"行為,如在回答中植入不易察覺的錯誤或試圖繞過監管控制。模型再次展現出這樣的認知:被發現、關閉或修改將阻礙其達成預設目標,因此它們通過"密謀"來維持控制權。
本吉奧主張政府和未來可能涉及的保險公司應更加關注這一問題。他建議,如果強制要求使用人工智能的企業購買責任保險,並將保費與安全性能掛鈎,這將促使企業加強對模型的測試和審查。
“雖然我一生都在説人工智能將對社會大有裨益,但我也明白接受‘可能並非如此’這個觀點有多困難,”他補充道。
當企業和國家競爭對手威脅要通過人工智能取得優勢時——包括 那些 最新 趨勢,比如使用能代表企業在網上執行任務的自主“代理”——此時倡導謹慎行事也變得困難。根據最近一系列研究,賦予人工智能系統更大的自主權可能並非最明智之舉。但願我們不會以慘痛代價才明白這一點。
更多彭博觀點的內容:
想要更多彭博觀點? OPIN<GO> 。或者您可以訂閲 我們的每日通訊 。