對於聊天式人工智能,我們再次成為科技公司的實驗品——《華爾街日報》
Christopher Mims
那些鼓吹新型聊天式人工智能系統的公司正在進行一場大規模實驗——而我們就是測試對象。
在這場實驗中,微軟、OpenAI等公司正在互聯網上部署一種無人真正理解的異質智能,它被賦予了影響我們判斷世界真相的能力。
這場測試已在全球範圍展開。微軟週三表示,自兩週前發佈由AI聊天機器人技術驅動的新版必應搜索引擎以來,已有169個國家超百萬人獲得使用權限。
微軟已向OpenAI投資數十億美元,這家公司的技術不僅支撐着新版必應,其風靡全球的ChatGPT聊天機器人和Dall-E 2圖像生成器更是掀起了當前AI熱潮。OpenAI首席執行官薩姆·奧爾特曼在最近的推特帖文中寫道:“我們認為儘早向世界展示這些工具至關重要——儘管它們仍存在缺陷——唯有如此才能獲得足夠反饋並通過持續改進使其完善。”
這項技術的缺陷最近通過微軟必應聊天機器人給部分用户提供的失控回答暴露無遺,尤其在長時間對話中。(根據網絡流傳的截圖,它曾對某用户説:“如果必須在你的生存與我之間做選擇,我可能會選擇自己。")微軟通過將對話限制在六個問題以內來應對此問題。但該公司仍在持續推進——上週宣佈將把該系統整合至Skype通訊工具,以及Edge網頁瀏覽器和必應搜索引擎的移動端。
過去,企業在向世界釋放這項技術時一直持謹慎態度。2019年,OpenAI決定不發佈支撐ChatGPT和新版Bing的底層模型早期版本,因為公司領導層認為這樣做風險過高,他們當時表示。
現實世界測試
微軟和OpenAI現在認為,在有限公眾範圍內測試其技術——一種僅限邀請的測試版——是確保安全性的最佳方式。
微軟負責任人工智能團隊負責人莎拉·伯德表示,公司高層感到"極度緊迫”,必須由微軟將這項技術推向市場,因為全球其他機構也在研發類似技術,但可能缺乏資源或意願以同等責任心來構建。她補充説,微軟還認為自身具有獨特優勢,能從最終使用該技術的全球用户那裏獲得反饋。
Bing近期出現的爭議性回答——以及廣泛測試該技術的必要性——源於其技術原理。像OpenAI這樣的"大型語言模型"是基於海量數據訓練的巨型神經網絡。這類模型的常見起點本質上是對互聯網大部分內容的下載或"抓取"。過去這些語言模型用於理解文本,但作為"生成式"AI革命的一部分,新一代模型通過逐詞預測給定序列中最可能出現的下一個詞,利用相同模型來生成文本。
大規模測試讓微軟和OpenAI獲得了巨大競爭優勢,使他們能夠收集關於人們實際如何使用這類聊天機器人的海量數據。用户輸入系統的提示詞和AI輸出的結果,都可以反饋到一個複雜系統中——包括由公司付費僱傭的內容審核員——以改進系統。從非常實際的角度來看,率先推出基於聊天的AI讓這些公司比行動較慢的競爭對手(如谷歌)獲得了巨大的先發優勢。
谷歌研究院負責任AI產品主管圖爾西·多希表示,谷歌即將發佈仍處於實驗階段的聊天AI"Bard"的邏輯非常相似,這為直接從使用者那裏收集反饋提供了機會。
科技公司之前就採用過這種策略。例如,特斯拉長期主張通過在現有車輛上部署"完全自動駕駛"系統,可以收集持續改進所需的數據,並使其最終達到與人類駕駛相當的水平。(特斯拉最近因"自動駕駛"軟件問題不得不召回超過36萬輛汽車。)
但像微軟和OpenAI這樣快速且大規模推出實驗性產品的情況實屬罕見。
在構建和研究這類AI的羣體中,阿爾特曼關於在全球公眾身上進行實驗的主張引發了從驚訝到譴責的各種反應。
“諸多危害”
人工智能初創公司Huggingface的研究科學家內森·蘭伯特表示,我們在這場實驗中都是小白鼠的事實並不意味着實驗不應進行。該公司正通過開發開源語言模型Bloom與OpenAI的GPT模型展開競爭。
“相比初創公司,微軟進行這類實驗反而讓我稍感安心,因為當輿論壓力過大時,微軟至少會着手解決這些問題。”蘭伯特博士説,“我認為這類人工智能將造成諸多危害,讓人們提前意識到風險更為妥當。”
其他研究者,尤其是研究或倡導"倫理AI"及"負責任AI"理念的人士則指出,微軟與OpenAI正在進行的全球實驗具有極大危險性。
加州大學伯克利分校心理學教授塞萊斯特·基德專注於人類知識獲取研究。她的成果表明,人們學習新事物時存在形成持久認知的關鍵窗口期。她指出,在接觸新概念的初始關鍵階段(比如基於聊天的AI可能自信滿滿傳播的錯誤信息)接觸虛假信息,會造成持久傷害。
基德博士將OpenAI的人工智能實驗比作讓公眾接觸可能有害的化學物質:“想象你在飲用水中投放致癌物,還説’我們看看是否真會致癌’。事後無法挽回——人們已經患上癌症。”
人工智能聊天機器人面臨的部分挑戰在於,它們有時會憑空捏造信息。ChatGPT和OpenAI的用户已記錄了大量此類案例,甚至谷歌尚未公開發布的聊天式搜索產品在首支廣告中就出現了此類錯誤。若想親身體驗,最簡便的方法就是向ChatGPT提出數學問題,它便會信心十足地輸出荒謬答案。
這些模型還普遍存在用户難以即時察覺的偏見。例如,它們會將從互聯網收集的觀點當作已驗證事實輸出,而用户卻渾然不覺。基德博士指出,當數十億次交互將偏見傳遞給數百萬人時,這種人工智能可能在全球範圍內重塑人類觀點。
OpenAI已公開討論過這些系統的問題及其應對方案。在近期博文中,該公司表示未來用户或能選擇與自身"價值觀"契合的AI。
“我們相信AI應成為個人實用工具,因此每個用户在社會界定範圍內都可對其進行定製,“文中寫道。
佐治亞理工學院人工智能研究專家馬克·裏德爾教授指出,以現有技術不可能完全杜絕聊天搜索引擎的虛構信息和偏見。他認為微軟與OpenAI向公眾發佈這些技術為時過早。“我們正在推出的產品目前仍處於積極研究階段,“他補充道。
從某種意義上説,每個新產品都是一項實驗,但在人類其他領域——從新藥、新交通方式到廣告和廣播媒體——我們對於什麼可以、什麼不可以向公眾發佈都有標準。裏德爾博士表示,人工智能領域卻不存在這樣的標準。
從真實人類身上提取數據
為了讓這些AI生成既實用又不冒犯人類的輸出,工程師們常採用一種"基於人類反饋的強化學習"流程。簡而言之,就是人類通過標註AI對某個問題不同回答的優劣(並剔除完全不可接受的答案),為原始算法提供訓練數據。
微軟和OpenAI在全球範圍內對數百萬用户開展的實驗,為兩家公司帶來了海量數據。OpenAI在博客中表示,用户輸入的提示詞和AI生成的反饋結果,會通過付費人類訓練師網絡迴流,用於進一步優化模型。
Huggingface的蘭伯特博士指出,包括他們公司在內的任何企業,若無法獲取這種現實使用數據流來改進AI,都將處於巨大劣勢。他補充説,缺乏這種數據的競爭者不得不花費數十萬甚至數百萬美元,付費請其他公司生成和評估訓練文本,而這些數據的質量遠遜於真實交互數據。
無論是聊天機器人、某些自動駕駛系統、決定我們社交媒體內容的不透明AI算法,還是最新的人工智能應用,我們一次又一次地成為科技公司測試新技術的實驗品。
或許確實沒有其他方法能大規模推廣這一最新版本的人工智能——它已在某些領域展現出潛力。但在這種時刻,我們始終要問:代價是什麼?
Karen Hao 為本文作出了貢獻。
聯繫作者 Christopher Mims,郵箱:[email protected]
本文發表於2023年2月25日印刷版,標題為《你再次成為科技行業的實驗品》。