大科技公司地下競購人工智能訓練數據 | 路透社
Katie Paul,Anna Tong


3項社交媒體標誌通過放大鏡顯示在這幅插圖中,拍攝於2021年5月25日。圖片拍攝於2021年5月25日。路透社/Dado Ruvic/文件照片
3項社交媒體標誌通過放大鏡顯示在這幅插圖中,拍攝於2021年5月25日。圖片拍攝於2021年5月25日。路透社/Dado Ruvic/文件照片 紐約,2022年4月5日(路透社)- 在21世紀初期的鼎盛時期,Photobucket曾是世界頂級的圖像託管網站。作為曾經炙手可熱的Myspace和Friendster等服務的媒體支柱,它擁有7000萬用户,佔據了美國在線照片市場近一半的份額。
根據分析跟蹤器Similarweb的數據,如今只有200萬人仍在使用Photobucket。但生成式人工智能革命可能會讓它重獲新生。
總裁泰德·萊昂納德(Ted Leonard)在科羅拉多州愛德華茲市經營這家擁有40名員工的公司,他告訴路透社,他正在與多家科技公司洽談許可Photobucket的130億張照片和視頻,用於訓練生成式人工智能模型,以便根據文本提示生成新內容。
他表示,他已經討論過每張照片5美分至1美元不等的價格,每個視頻超過1美元的價格,價格因購買者和所需圖像類型而有很大差異。
“我們已經與一些公司交談過,他們表示需要更多,”萊昂納德補充道,一位買家告訴他,他們需要超過10億個視頻,超過他的平台上擁有的數量。
“你撓了撓頭,説,你從哪裏得到的?”
Photobucket拒絕透露潛在買家的身份,稱商業保密。尚未報道的持續談判表明,該公司可能持有價值數十億美元的內容,並讓人一窺在爭奪生成式人工智能技術主導地位的激烈競爭中出現的繁榮數據市場。
像谷歌(Google)(GOOGL.O)、Meta(META.O)和微軟支持的OpenAI最初使用從互聯網免費獲取的大量數據來訓練生成式人工智能模型,如ChatGPT,這些模型可以模仿人類的創造力。他們表示這樣做在法律和道德上都是合法的,儘管他們面臨一系列版權持有者對這種做法提起訴訟。與此同時,這些科技公司也在悄悄地支付鎖定在付費牆和登錄界面後的內容,從聊天記錄到已經被遺忘的社交媒體應用中的個人照片,這種交易正在形成一個隱藏的市場。
“現在正急於尋找擁有私人收藏的版權持有者,這些內容無法被獲取,”律師事務所Klaris Law的Edward Klaris表示,該律所表示正在為內容所有者提供諮詢,就每個許可檔案中的照片、電影和書籍進行價值數千萬美元的交易。
路透社採訪了超過30位瞭解人工智能數據交易的人士,包括涉及公司的現任和前任高管、律師和顧問,以提供對這一新興市場的首次深入探討 - 詳細介紹正在被購買的內容類型、正在實現的價格,以及關於個人數據未經人們知情或明確同意就進入人工智能模型的風險的新興關注。
OpenAI, Google, Meta, Microsoft, Apple和Amazon都拒絕就本文中特定的數據交易和討論發表評論,儘管Microsoft和Google將路透社轉至包含數據隱私條款的供應商行為準則。
Google補充説,如果發現違規行為,將“立即採取行動,包括終止”與供應商的協議。
許多主要的市場研究公司表示,他們甚至還沒有開始估計不透明的AI數據市場的規模,公司通常不披露協議。那些進行估算的研究人員,比如Business Research Insights,將市場規模目前約為25億美元,並預測未來十年可能增長到接近300億美元。
生成數據黃金熱
數據領域的爭奪戰正在進行中,大型生成AI“基礎”模型的製造商面臨越來越大的壓力,需要説明他們向系統輸入的大量內容,這個過程被稱為“訓練”,需要大量的計算能力,通常需要數月才能完成。
科技公司表示,如果他們不能使用大量免費的網頁數據存檔,比如非營利性存儲庫Common Crawl提供的數據,這項技術將是成本禁止的。
儘管如此,他們的做法引發了一波版權訴訟和監管壓力,同時促使出版商向他們的網站添加代碼為了阻止網絡爬蟲。作為回應,AI模型製造商已經開始對沖風險並保護數據供應鏈,既通過與內容所有者達成協議,也通過湧現出來以滿足需求的數據經紀人行業。
例如,在2022年底ChatGPT推出後的幾個月裏,包括Meta、Google、亞馬遜和蘋果在內的公司都與庫存圖像提供商Shutterstock達成協議,使用其圖庫中數億張圖像、視頻和音樂文件進行訓練,一位熟悉安排的人士透露。
最初,與大科技公司的交易金額從2500萬美元到5000萬美元不等,儘管大多數後來都有所擴大,Shutterstock的首席財務官賈羅德·亞赫斯告訴路透社。較小的科技公司也紛紛效仿,引發了過去兩個月的一波“活動熱潮”,他補充説。
亞赫斯拒絕就個別合同發表評論。蘋果的協議以及其他交易的規模之前並未公開。
Shutterstock的競爭對手Freepik告訴路透社,他們已經與兩家大型科技公司達成協議,許可其2至4美分每張圖像的20億張圖像檔案中的大部分。首席執行官Joaquin Cuenca Abela表示,還有另外五筆類似的交易正在進行中,但拒絕透露買家。
早期是Shutterstock的客户OpenAI也已與至少四家新聞機構簽訂了許可協議,包括美聯社 和 Axel Springer。路透社的所有者湯姆遜·路透分別表示,它已經 達成協議 授權新聞內容,以幫助訓練AI大型語言模型,但沒有透露細節。## ‘道德來源’ 內容
一個專門從事AI數據公司的行業也在崛起,他們獲得了像播客、短視頻和與數字助手的互動等真實世界內容的權利,同時還建立了短期合同工人網絡,從頭開始製作定製視覺和語音樣本,類似於Uber式的數據零工經濟。
總部位於西雅圖的Defined.ai 向包括谷歌、Meta、蘋果、亞馬遜和微軟在內的一系列公司授權數據,首席執行官達尼埃拉·布拉加告訴路透社。
價格因買家和內容類型而異,但布拉加表示,公司通常願意支付每張圖片1至2美元,每個短視頻2至4美元,每小時長片100至300美元。她補充説,文本的市場價格為每字0.001美元。
她説,最需要敏感處理的裸露圖片售價為5至7美元。
布拉加表示,Defined.ai 與內容提供商分享這些收入。她補充説,它將其數據集營銷為“道德來源”,因為它取得了使用數據的人的同意,並剝離了個人身份信息。
該公司的一位供應商,一位總部位於巴西的企業家,表示他向他從中獲取照片、播客和醫療數據的所有者支付總交易金額的20%至30%。
他的投資組合中最昂貴的圖像是用於訓練AI系統的,這些系統會屏蔽像科技公司禁止的圖形暴力內容,供應商説,他不願透露公司名稱,因為這涉及商業敏感性。
為了滿足這些要求,他獲取了犯罪現場、衝突暴力和手術的圖像 - 主要來自警方、自由攝影記者和醫學生,他説,這些地方通常是南美和非洲,那裏分發圖形圖像更為普遍。
自從10月份戰爭開始以來,他説他已經收到了來自加沙自由攝影師的圖像,還有一些來自以色列在敵對行動開始時的圖像。
他説,他的公司僱傭了習慣於看到暴力傷害的護士來對圖像進行匿名化和註釋,這些圖像對未經訓練的人來説令人不安。
‘我會覺得有風險’
許多行業人士接受採訪時表示,儘管許可可以解決一些法律和倫理問題,但將像Photobucket這樣的舊互聯網名稱的存檔作為最新AI模型的燃料引發了其他問題,特別是圍繞用户隱私的問題。AI系統已經被發現在重複其訓練數據,例如,輸出Getty Images水印的確切副本、New York Times文章的逐字段落和真實人物的圖像。這意味着一個人幾十年前發佈的私人照片或親密想法可能會在生成式AI輸出中出現,而無需通知或明確同意。Photobucket首席執行官萊昂納德表示,他站在堅實的法律基礎上,引用了該公司在十月更新的服務條款,授予其出售任何上傳內容以用於訓練人工智能系統的“無限權利”。他認為許可數據是銷售廣告的替代方案。
“我們需要支付賬單,這可以讓我們有能力繼續支持免費賬户,”他説。
Defined.ai的布拉加表示,她避免從像Photobucket這樣的“平台”公司獲取內容,更傾向於從創作者創建的社交媒體照片中獲取,她表示這些創作者對許可權有更清晰的主張。
“我會覺得這非常危險,”布拉加談到了平台內容。“如果有一些人工智能生成了類似某人照片的東西,而該人從未批准過,那就是一個問題。”
Photobucket並不是唯一一個支持許可的平台。Tumblr的母公司Automattic上個月表示,正在與“特定人工智能公司”分享內容。今年二月,路透社報道稱,Reddit與谷歌達成協議,以使其內容可用於訓練後者的人工智能模型。在三月的首次公開招股之前,Reddit披露其數據許可業務正受到美國聯邦貿易委員會的調查,並承認可能會觸犯不斷發展的隱私和知識產權法規。聯邦貿易委員會(FTC)在二月份警告企業不得擅自修改人工智能使用條款,拒絕就Reddit的調查發表評論,也未透露是否正在調查其他培訓數據交易。《科技週報》會把最新的新聞和趨勢直接送到您的收件箱。在這裏註冊。