我們如何控制人工智能 - 《華爾街日報》
Eric Schmidt
當今的大型語言模型——構成人工智能基礎的計算機程序——是人類取得的非凡成就。其卓越的語言能力和廣博知識背後,是海量數據、鉅額資金與漫長時間的共同作用。許多模型的研發成本超過1億美元,需要人類與機器進行數月的測試優化。通過評估系統答案與"正確答案"的接近程度,這些模型經歷了高達數百萬次的迭代優化。
真正的難點在於編碼人類價值觀。目前這需要額外的人類反饋強化學習步驟:程序員通過自身回應訓練模型,使其輸出既實用又準確。同時,所謂的"紅隊"會故意刺激程序以暴露潛在有害輸出。這種人機協同的調整與防護機制,旨在確保AI與人類價值觀保持一致並保障整體安全。迄今為止,這種方法似乎效果尚可。
但隨着模型日益精進,現行方法可能力有不逮。某些模型開始展現通才特質:它們似乎能超越訓練數據建立跨領域、跨語言、跨地域的概念聯繫。假以時日,僅憑公開知識,它們就可能設計出新型網絡攻擊或生物攻擊方案。
關於如何管控這些風險,業界遠未達成共識。媒體對OpenAI十一月內訌的諸多解讀中,包括董事會基於非營利使命的安全考量與商業利益間的根本衝突,這最終導致前CEO薩姆·奧爾特曼被解職。像為客户定製ChatGPT這樣的商業項目利潤豐厚,卻可能削弱基礎安全防護。隨着AI愈發智能強大,此類風險爭議將愈演愈烈。我們必須建立能匹配核心模型複雜度與創新速度的新型安全體系。
9月13日,OpenAI首席執行官山姆·阿爾特曼出席美國參議院人工智能洞察論壇,與其他科技領袖討論人工智能及其治理後離職。圖片來源:Graeme Sloan/美聯社儘管多數人認為當前的人工智能程序總體上使用和傳播是安全的,但我們現有的安全測試能否跟上AI迅猛發展的步伐?目前,行業對需要測試的明顯問題——包括個人傷害和偏見案例——已具備較好把控力。檢測模型當前狀態是否包含危險知識也相對直接。真正難以測試的是所謂"能力冗餘"——這不僅指模型現有知識,更包括其可能自主衍生的潛在知識。
紅隊測試在預測模型能力方面已展現一定潛力,但新興技術可能顛覆我們當前的人工智能安全策略。首先,“遞歸自我改進"功能允許AI系統自主收集數據、獲取反饋並更新參數,實現模型自我訓練。這可能催生出能從零構建複雜系統應用(如簡易搜索引擎或新遊戲)的AI。但遞歸自我改進可能激發的全部新能力範圍尚屬未知。
另一個例子是"多智能體系統”,多個獨立AI系統可相互協作創造新事物。僅兩家不同公司的AI模型實現協作,就將成為需要警惕的里程碑。這種"組合式創新"——通過系統融合創造新事物——之所以構成威脅,正是因為組合數量將迅速超越人類監管能力。
除非切斷執行這些任務的計算機電源,否則一旦這些技術突破發生,監控這類技術將變得極其困難。當前的監管方法基於單個模型的規模和訓練投入,並通過日益嚴格的測試來實施,但隨着系統能力呈指數級增長且可能愈發難以捉摸,這些手段將失效。人工智能監管方式必須升級,以識別並管控新湧現的能力及其規模擴張。
2023年10月30日,拜登總統在副總統卡瑪拉·哈里斯陪同下籤署行政令,為人工智能監管提供指導方針。該政策採取靈活方式,但缺乏法律強制力。圖片來源:埃文·武奇/美聯社歐盟迄今通過《人工智能法案》推行了最具雄心的監管框架,根據模型風險等級實施透明度要求和差異化管理。該法案甚至涵蓋了像ChatGPT這樣的通用模型——這類模型應用場景廣泛且可能以不可預測的方式被使用。但隨着大量不受該法規約束的開源AI模型在範圍和數量上的擴張,《人工智能法案》已落後於創新前沿。拜登總統近期關於AI的行政令採取了更廣泛靈活的策略,向政府機構提供方向指引並概述監管目標,但未具備《人工智能法案》那樣的完整法律效力。例如,該行政令授權美國國家標準與技術研究院負責制定AI系統安全標準和評估規程,但並未要求美國AI系統必須"通過測試"。此外,拜登行政令和歐盟《人工智能法案》都缺乏快速適應持續劇變的AI格局的內在機制。
我最近參加了蘭德公司和卡內基國際和平基金會在帕洛阿爾託組織的聚會,會上人工智能領域的關鍵技術領袖們達成了一個共識:解決這些問題的最佳途徑是建立一系列新的測試公司,這些公司將通過相互創新競爭來獲得激勵——簡而言之,構建一個充滿活力的測試經濟體系。為了檢驗最強大的人工智能系統,測試者自身也必須是強大的人工智能系統,經過精確訓練和優化,專注於識別全球最先進模型中的安全隱患和問題領域這一單一任務。為了既可信又靈活,這些測試公司應由政府監管機構審查和批准,但在私營市場中開發和融資,並可能得到慈善組織的支持。(我共同創立的慈善機構施密特科學基金會和我本人已資助了一些早期的人工智能安全研究。)這一領域發展速度太快,風險太高,不能完全依賴典型的政府流程和時間框架。
對人工智能快速發展的擔憂引發了一系列抗議活動,活動人士試圖減緩其發展,包括10月21日在倫敦舉行的這次抗議。照片:美聯社實現這一目標的一種方式是,要求政府監管機構對能力超過一定水平的人工智能模型進行評估,評估由獲得政府認證的私營測試公司(從初創企業到大學實驗室再到非營利研究組織)進行,模型構建者需支付測試和認證費用以滿足安全要求。測試公司將爭奪資金和人才,旨在以與被測試模型同樣驚人的速度擴展其能力。隨着人工智能模型的激增,測試需求的增長將創造一個足夠大的市場。測試公司可以專注於在不同安全領域認證提交的模型,例如自我複製能力、製造新的生物或網絡武器,或操縱或欺騙其創造者。這樣一個測試創新的競爭市場將與我們目前創建新模型的動態類似,在短時間內實現爆炸性進展。如果沒有這樣的市場及其帶來的競爭激勵,政府、研究實驗室和志願者將不得不使用落後於人工智能研究前沿幾代的工具,來保證人類有史以來最強大系統的安全性。
關於人工智能的潛在威脅,已有大量討論。先進的AI系統可能最終與人類價值觀和利益脱節,無論是有意還是無意(通常如此),都可能引發混亂和災難。隨着它們的進步,我們今天面臨的威脅只會擴大,因為新系統學會自我改進、協作,並可能抵制人類的監督。
儘管風險確實存在,但它們並非不可避免。如果我們能夠建立一個由靈活、成熟、獨立的測試公司組成的生態系統,這些公司不斷發展和提高其評估AI測試的技能,我們就能幫助實現一個未來,社會既能從AI工具的驚人力量中受益,又能保持有效的防護措施,防止破壞性後果。
埃裏克·施密特是谷歌前首席執行官和執行主席,也是資助科技研究的慈善機構施密特科學的聯合創始人。