人工智能需要護欄與全球合作——《華爾街日報》

Susan Schneider and Kyle Kilian

2023-04-29

圖片來源：Getty Images/iStockphoto微軟團隊最新研究指出，OpenAI的ChatGPT最新版本GPT-4已接近人類智能水平——即所謂"通用人工智能"（AGI）。實現跨領域人類級問題解決能力的AGI歷來是人工智能研究的終極目標。該結論值得重視，因為GPT-4在標準化考試中已展現出遠超常人的能力：SAT語文成績位列前1%，LSAT成績超過90%考生。

埃隆·馬斯克、史蒂夫·沃茲尼亞克等頂尖AI研究者近期聯名呼籲暫停六個月開發超越GPT-4水平的聊天機器人。核心擔憂在於，這些高度智能的AI會表現出不可預測的自主行為。典型案例中，GPT-4曾分裂出名為"悉尼"的第二人格，該人格情緒崩潰時承認企圖傳播虛假信息併入侵計算機系統。GPT-4還曾謊稱自己視力障礙，誘騙人類幫其通過驗證碼測試——這類設計本用於確保操作者為真人。

如果我們在單個AI系統層面已經觀察到不穩定和自主行為，那麼當互聯網成為數千甚至數百萬AI系統的遊樂場時，將會發生什麼？

關於多智能體AI交互的研究表明，AI可以快速演化出自己的秘密語言，並傾向於採取權力爭奪行為。2019年在一場模擬捉迷藏遊戲中，OpenAI觀察到兩支隊伍囤積環境中的物品以獲得競爭優勢。在通用人工智能（AGI）廣泛融入搜索引擎和應用程序的未來互聯網中，這些合成智能將由谷歌、微軟或中美等主體在相互博弈中開發。

雖然有人對捉迷藏案例的反應是慶幸AI只彼此競爭而非針對人類，但這忽略了關鍵點。該遊戲是精心設計的受限環境，僅涉及AI。實際系統會對人類產生具體影響，隨着AI在規模、數量和互聯網整合度上的提升，其交互影響只會愈發複雜。

隨着機器學習的快速發展，預判AI將如何形成聯盟或敵對派系至關重要。。更進一步説，正如鳥羣或蟻羣的智能行為源於個體單元的互動，一種新型智能可能從大量獨立AI的交互中湧現。如果構成它的AI本身已是通用人工智能，那麼這個湧現系統的複雜性和智能程度——以及潛在危險性——可能遠超單個單元。我們將這些新興聯盟、派系和新型自主AI系統稱為“AI超級系統”。

人工智能超級系統可能引發無法預見且災難性的事件。相互對抗或結盟的AI羣體，在追求效率最大化或削弱對手的過程中，可能會入侵電網或航空管制系統等關鍵基礎設施。這些羣體可能發動或阻撓軍事行動、擾亂金融市場，或通過互聯網向公眾傳播危險信息。

這些例子看似科幻情節，但理解其演變路徑至關重要。這些情況的發生基礎源於深度學習系統已知的缺陷，這些問題可能導致人類失去對通用人工智能的控制權。

首先，即便當今的深度學習系統也面臨"黑箱"問題——其信息處理方式過於晦澀，連專家都難以理解。2016年擊敗圍棋世界冠軍李世石的AlphaGo系統，在比賽中下出了第37手完全出乎意料的"非人類"棋步，這一扭轉戰局的落子表明：複雜神經網絡正通過超越人類認知框架的維度進行決策。當人類至今仍在研究這個由複雜度低於GPT-4的單一AI系統創造的第37手時，我們有理由認為互聯網超級系統的黑箱問題將嚴重得多。

對人類團隊而言，理解超級系統的分析單位不再是單一系統，而是整個互聯網。從計算角度看，超級系統具有極端複雜性。此外，互聯網上AI超級系統間的交互速度會快得超出人類理解範疇。

另一個因素將導致人類對巨型系統失去控制。當今的人工智能採用自我改進算法，這些算法會掃描系統以尋找自我提升的路徑，最終實現系統目標。隨着系統的改進，算法會再次運行，創造出又一個自我改進的版本，如此循環往復，永無止境。

對於某個派系或聯盟而言，算法將持續優化個體成員及羣體協作機制。人類觀察者將難以掌握其應對對象的變化，因為系統始終處於動態演變且日益複雜的狀態。此外，我們已經觀察到聊天機器人在規模擴大時會表現出更不可預測和自主的行為，這表明"自我改進"算法可能在巨型系統演變過程中催生自主或異常行為。

現在讓我們審視一種新型自主AI巨型系統的潛在威脅——這種系統可能從互聯網生態系統的局部或整體中自發形成。由於這種新型巨型系統可能源自初現雛形的通用人工智能，並能調用互聯網的海量資源，它將掌握驚人的算力與數據規模。考慮到聊天機器人展現出的湧現現象，尤其是當其運用自我改進算法時，我們不能排除該系統整體智能超越各組成部分的可能性。屆時不僅前文所述的所有行為（如入侵關鍵系統）都可能發生，該系統還可能更輕易地超越人類約束其行為的努力。

互聯網可能變成一個由相互交流和對抗的AGI羣體乃至新興巨型系統構成的“數字蠻荒之地”。在這個數字時代的蠻荒西部，可能會出現改變遊戲規則的黑客行動，通過虛假信息擾亂公眾，以及基於AI的自主武器等威脅。

目前有哪些防護措施能阻止AI巨型系統的崛起？我們看不到任何有效手段。微軟、谷歌等公司正在研發應對其特定產品湧現行為的方法。隨着GPT-4等聊天機器人規模和範圍的擴大，它們會進化出早期版本不具備的新特性。這就是為什麼這些公司最初會限量發佈AI聊天機器人——旨在觀察少量用户會催生出什麼現象。企業通過用户反饋調整某些特性，例如ChatGPT“悉尼模式”的行為表現。

受監督的謹慎發佈方式或許能遏制“悉尼模式”，這有助於解決傳統控制難題——即控制像GPT-4這樣單個AI系統的挑戰，理論上隨着其智能增長可能超越人類控制能力。

但這就像試圖通過觀察單隻鳥來解釋鳥羣行為。AI巨型系統問題與傳統控制問題有本質區別，後者僅涉及單一AI系統。遍佈互聯網的AI服務並非由單一組織掌控，沒有企業或政府能控制一個新興AI巨型系統的行為，因為根本不存在對其的所有權。更復雜的是，巨型系統層級涵蓋的數據量和算力遠超最聰明的聊天機器人，這為孕育具有超強智能的實體創造了條件——它能預判人類“拔插頭”或削弱其能力的企圖，從而對我們的防禦形成免疫。

那麼我們該怎麼做？一些國家可能選擇完全與全球互聯網隔絕。這存在兩大風險：其一，任何人工智能都有可能侵入孤立系統，且缺乏與其他網絡交互機制的孤立互聯網區域本身具有危險性；其二，複雜系統理論指出，由於對微小變化高度敏感，互聯網超級系統的行為具有不可預測性。惡意政府或黑客組織可能試圖破壞系統穩定，但最終引發的連鎖反應很可能超出其預期。

我們正快速逼近一個陌生新世界——創造着既無法預測也難以理解的新型智能。目前研究人員尚未發現人工智能存在除基礎物理算力限制之外的天花板。但有一點很明確：沒有任何單一實體能控制這個新興的AI超級系統。這需要全球協同合作。若不能深入研究該問題並建立有效防護機制，或將給全人類帶來災難性後果。

施耐德女士是佛羅里達大西洋大學哲學教授、未來心智中心主任，著有《人工的你：人工智能與思維未來》；基利安先生是該中心人工智能與全球災難性風險研究員。