《華爾街日報》:ChatGPT等人工智能技術依賴於你的貢獻
Christopher Mims
插圖:伊萬傑琳·加拉格爾如果你曾發佈過博客、在Reddit發帖或在開放網絡的任何地方分享過內容,那麼你很可能為最新人工智能的誕生貢獻了一分力量。
谷歌的Bard聊天機器人、OpenAI的ChatGPT、微軟由OpenAI驅動的必應版本,以及眾多初創公司採用這些及其他AI語言模型開發的類似工具——如果沒有網絡上免費提供的海量文本,這些聰明的自動寫作工具都不可能存在。
如今,網絡內容再次成為爭奪對象,各方勢力試圖瓜分這一無可替代的豐富信息源,其價值已因新型技術被重新定義——這種局面自早期搜索引擎大戰以來還未曾出現過。
那些無意中提供這些數據的科技和媒體公司正逐漸意識到,這些數據對訓練最新一代基於語言的AI至關重要。作為OpenAI寶貴數據源的Reddit近日宣佈將開始向AI公司收取數據訪問費用。OpenAI拒絕置評。
推特也於近期開始對數據訪問服務收費,這一變化影響了推特業務的諸多方面,包括AI公司對其數據的使用。代表出版商(包括《華爾街日報》母公司道瓊斯)的新聞媒體聯盟在本月一份文件中聲明,當公司使用其成員作品訓練AI時,應當支付許可費。
“對我們來説,真正關鍵在於恰當的歸屬。”Stack Overflow首席執行官普拉桑特·錢德拉塞卡表示。該網站是程序員互相解答問題的平台。他的公司還計劃開始向大型AI公司收費,以獲取用户在該公司網站上的工作成果。“我們真心希望確保那些花費大量精力回答問題的Stack Overflow社區成員,能對他們過去15年的努力獲得應有的認可。”
我之前曾撰文討論過,像OpenAI的DALL-E 2這樣吸收並輸出圖像的人工智能服務,如何面臨工業規模知識產權盜竊的指控。創建這些系統的公司目前正因這些指控捲入訴訟。而AI生成文字引發的爭議可能更為重大,不僅涉及補償和署名問題,還關乎隱私。
這場爭議源於AI聊天機器人的構建方式。驅動這些機器人的所謂大型語言模型算法,必須通過吸收和處理海量現有語言來訓練,以試圖模仿人類的言語內容和表達方式。這類數據不同於我們通常認為的互聯網商品——比如Facebook母公司Meta Platforms等公司用於廣告定位的行為和個人信息。
這些數據是各類服務的人類用户創造性產出的成果,例如Reddit用户發佈的數億條帖子。只有在網絡上,你才能找到如此大規模的人類生成文字庫。若沒有這些數據,當今所有基於聊天的AI及相關技術都將無法運作。
2021年,非營利組織艾倫人工智能研究所的科學家傑西·道奇在一篇論文中發現,維基百科和無數大小媒體受版權保護的新聞文章都被收錄在一個最常用的網絡抓取內容數據庫中。谷歌和Facebook都曾使用該數據集訓練大語言模型,OpenAI也使用過其自建的類似數據庫。
推特近期開始對包括AI公司在內的數據訪問服務收費。圖片來源:艾米·奧斯本/法新社/蓋蒂圖片社OpenAI已不再披露其數據來源,但該公司2020年發表的論文顯示,其大語言模型使用了從Reddit抓取的帖子來篩選和改進用於訓練AI的數據。
Reddit發言人蒂姆·拉特施密特表示,雖然尚不確定向企業收取數據訪問費用能帶來多少收入,但確信其擁有的數據能提升當前某些大語言模型的性能。
據《華爾街日報》上月報道,出版業高管們正在研究其內容被用於訓練ChatGPT等AI工具的程度、應獲補償的方式以及法律途徑。但該組織總法律顧問丹妮爾·科菲指出,截至目前,谷歌、OpenAI、微軟等大型AI聊天引擎運營商均未就使用新聞媒體聯盟成員內容作為訓練數據達成任何付費協議。
推特未回應置評請求。
微軟拒絕發表評論。谷歌發言人表示,該公司"長期致力於幫助創作者和出版商實現內容價值,並加強與受眾的聯繫。根據我們的人工智能原則,我們將繼續以負責任和合乎道德的方式在這一領域創新。“他還表示"目前仍處於早期階段”,谷歌正在就如何構建有益於開放網絡的人工智能徵求各方意見。
法律與倫理的泥潭
複製開放網絡上的數據(即網絡爬取行為)在某些情況下是合法的,儘管企業仍在就具體操作方式和適用情形持續爭論。
大多數在網絡上公開數據的公司和組織,其初衷是希望內容能被搜索引擎發現和索引,從而引導用户訪問原始內容。
但複製這些數據來訓練可能取代原始內容需求的人工智能,則完全是另一回事。
華盛頓大學計算語言學家艾米麗·M·本德博士指出,那些通過網絡爬取訓練AI的科技公司奉行的是’我們能拿走就是我們的’原則。她補充道,將書籍、雜誌文章、個人博客的深情隨筆乃至專利、科學論文和維基百科內容轉化為聊天機器人的答案時,這些材料與來源的鏈接就被剝離了。這也使得用户更難驗證聊天機器人提供的信息——對於這些經常編造不實內容的系統而言,這是個嚴重問題。
這些大規模的網絡抓取還可能吞噬我們的個人信息。Common Crawl的數據科學家兼工程師塞巴斯蒂安·納格爾指出,即便你多年前撰寫後又刪除的博客文章,仍可能存在於OpenAI的訓練數據中——該公司利用多年全網抓取的數據來訓練其人工智能系統。
作為非營利組織的Common Crawl十餘年來持續抓取開放網絡的重要部分,並將其數據庫免費提供給研究人員。該數據庫也被谷歌、Meta、OpenAI等企業用作訓練人工智能的初始數據集。
谷歌和微軟等公司的搜索引擎索引不同,班德博士解釋道,要從已訓練的人工智能中刪除個人信息需要重新訓練整個模型。道奇博士補充説,由於重新訓練大型語言模型成本極高(因所需計算能力巨大,成本可能達數千萬美元),即使用户能證明AI使用了其個人數據,企業也不太可能這樣做。
但他同時指出,大多數情況下,要讓一個通過含個人信息數據訓練出的人工智能反芻這些信息也很困難。OpenAI表示已調整其聊天系統以拒絕提供個人信息的請求。歐盟與拜登政府都在考慮針對此類人工智能制定新的法律法規。
一位微軟高管展示該公司必應搜索引擎和Edge瀏覽器與OpenAI的整合。圖片來源:Stephen Brashear/Associated Press### 責任與利潤分配
一些AI支持者認為,人工智能應該獲取工程師能接觸到的所有數據,因為人類就是這樣學習的。按照這種邏輯,機器為何不能如此?
暫且不論當今AI實際運作方式與人類不同,本德博士指出,這種觀點的一個癥結在於AI無法對其行為負責。人類若抄襲他人作品或蓄意散播虛假信息,可能會承擔後果。但她補充道,無論是機器還是其創造者,目前都無需承擔類似責任。
這種情況可能不會持續。正如蓋蒂等版權所有者起訴使用其知識產權作為訓練數據的AI圖像生成公司,如果基於聊天的AI製造商未經許可使用內容,企業和其他組織最終很可能也會將其告上法庭。
但那些個人隨筆、冷門論壇帖子、已關閉社交網絡的發言,以及數百萬用户創作的其他零散內容——正是這些數據造就瞭如今擅長寫作的聊天AI——其創作者們可能獲得的唯一回報,就是使用這些基於自身作品訓練的語言生成AI時產生的效用。
獲取更多《華爾街日報》科技分析、評論、建議及頭條新聞,請訂閲我們的每週通訊。
聯繫克里斯托弗·米姆斯,郵箱:[email protected]
更正與説明當前的人工智能系統在任何情況下都不能對其行為負責,因為它是一種數學算法而非人類。本文早期版本錯誤地將"現行法律下"無法追責的説法歸因於艾米麗·M·本德。(2023年4月30日更正)
刊載於2023年4月29日印刷版,標題為《最新AI技術需要關鍵貢獻者:你》。