一位高中老師的免費圖像數據庫助力AI 獨角獸 - 彭博社
Marissa Newman, Aggi Cantrill
克里斯托夫·舒曼(Christoph Schuhmann)站在德國漢堡的克洛斯特爾學校(Gymnasium Klosterschule)外。
攝影師:瑪麗亞·費克/Bloomberg
在德國北部城市漢堡郊區的一座郊區房屋前,一個單詞“LAION”用鉛筆塗在郵箱上。這是唯一表明這座房屋屬於那位在全球引起轟動的人工智能熱潮中扮演重要角色的人的跡象。
那個人是高中老師克里斯托夫·舒曼, LAION,全稱“大規模人工智能開放網絡”,是他的激情項目。當舒曼不在教德國青少年物理和計算機科學時,他與一小隊志願者一起建立世界上最大的免費人工智能訓練數據集,該數據集已被用於文本到圖像生成器,如谷歌的Imagen和Stable Diffusion。
像LAION這樣的數據庫對於人工智能文本到圖像生成器至關重要,這些生成器依賴於它們來解構和創建新圖像所需的大量視覺材料。去年年底這些產品的推出是一個開創性事件:它將科技行業的人工智能競賽推向了超高速,並引發了一系列倫理和法律問題。在幾個月內,針對生成式人工智能公司Stability AI和Midjourney的侵犯版權的訴訟已經提起,批評者開始警告這些公司數據集中存在的暴力、性暗示和其他問題圖像,這些問題被指責引入了幾乎不可能消除的偏見。
高中老師的五十億圖像數據庫推動AI 獨角獸
但這些不是舒曼的關注點。他只是想釋放數據。
大語言
這位40歲的老師和受過訓練的演員兩年前在一個AI愛好者的Discord服務器上結識後,幫助創立了LAION。OpenAI的第一個版本 DALL-E,一個深度學習模型,可以 從語言提示生成數字圖像 — 比如,響應這樣一個請求創建一張粉色雞坐在沙發上的圖像 — 剛剛發佈,舒曼既受到啓發又擔心這會鼓勵大型科技公司使更多數據專有化。“我立刻意識到,如果這集中在一個、兩個或三個公司,對社會將產生非常不好的影響,”舒曼説。
作為回應,他和服務器上的其他成員決定創建一個開源數據集,以幫助訓練圖像到文本擴散模型,這是一個類似於用數百萬張閃卡教某人外語的幾個月過程。該團隊使用加利福尼亞非營利組織Common Crawl收集的原始HTML代碼來定位網絡上的圖像,並將其與描述性文本關聯起來。它不使用任何手動或人工篩選。
幾周內,舒曼和他的同事們擁有了300萬個圖像文本對。三個月後,他們發佈了一個包含4億對的數據集。現在這個數字已經超過50億,使LAION成為最大的免費圖像和標題數據集。
隨着LAION的聲譽日益增長,團隊開始無償工作,直到2021年從機器學習公司Hugging Face收到一次性捐贈。然後,一天,一位前對沖基金經理進入了Discord聊天室。
Emad Mostaque提出承擔計算能力的費用,沒有任何附加條件。他想要啓動自己的開源生成式人工智能業務,並渴望利用LAION來訓練他的產品。團隊最初對這個提議不屑一顧,認為他是個怪人。
“一開始我們非常懷疑,”Schuhmann説,“但大約四周後,我們獲得了雲端GPU的訪問權限,這些GPU通常價值約9000美元或10000美元。”
當Mostaque於2022年推出Stability AI時,他使用了LAION的數據集來為其旗艦AI圖像生成器Stable Diffusion進行訓練,並僱傭了該組織的兩名研究人員。一年後,該公司目前正在尋求價值40億美元的估值,這在很大程度上要歸功於LAION提供的數據。至於Schuhmann,他並沒有從LAION中獲利,也表示自己對此不感興趣。“我仍然是一名高中教師。我拒絕了各種公司的工作邀約,因為我希望這個項目保持獨立,”他説。
新的石油?
像LAION這樣的數據庫中的許多圖像和鏈接在互聯網上一直就在眼前,有些甚至已經存在幾十年。人工智能的興起揭示了其真正價值,因為數據集越大且多樣化,其中的圖像質量越高,AI生成的圖像就會越清晰和精確。
這一認識反過來引發了許多關於公開可用材料是否可以用於填充數據庫的法律和倫理問題 — 如果答案是肯定的,那麼創作者是否應該得到報酬。
為了構建LAION,創始人們從公司如Pinterest、Shopify和Amazon Web Services等處抓取了視覺數據 — — 這些公司並未就LAION對其內容的使用是否違反其服務條款發表評論 — — 以及YouTube的縮略圖、來自諸如DeviantArt和EyeEm之類的作品展示平台的圖片、來自包括美國國防部在內的政府網站的照片,以及來自《每日郵報》和《太陽報》等新聞網站的內容。
如果你問Schuhmann,他會説在線上免費提供的任何東西都是公平競爭的對象。但目前歐盟沒有人工智能法規,即將出台的人工智能法案,其語言將在今年夏初敲定,不會規定版權材料是否可以包含在大數據集中。相反,立法者正在討論是否應該包括一項規定,要求AI生成器背後的公司披露用於訓練其產品的數據集中包含了哪些材料,從而給這些材料的創作者提供採取行動的選擇。
歐洲議會議員Dragos Tudorache告訴彭博社,該規定背後的基本理念很簡單:“作為生成式人工智能的開發者,你有義務記錄並透明地披露你在算法訓練中使用的版權材料。”
克里斯托夫·舒曼(Christoph Schuhmann)在漢堡的一家公園裏,4月20日。攝影師:瑪麗亞·費克/彭博社這樣的監管對於Stability AI來説不是問題,但對於其他文本到圖像生成器可能會是一個問題——“沒有人知道Open AI實際上用什麼來訓練DALL-E 2,”舒曼説,引用這個作為科技公司封鎖公共數據的一個例子。這也會顛覆目前數據收集的現狀。
“在這個領域內已經形成了一種傳統,就是假設你不需要得到同意或者不需要告知人們,或者他們甚至不需要知道。人們有一種認為只要在網上的東西,你就可以爬取並放入數據集中的理所當然感,”Mozilla基金會的值得信賴的AI高級研究員Abeba Birhane説,她研究了LAION。
儘管LAION沒有直接被起訴,但它已經被提及在兩起訴訟中:一起指控Stability和Midjourney使用藝術家的受版權保護的圖像來訓練他們的模型,以及Getty Images對Stability提起的訴訟,指控LAION爬取了1200萬張其圖像用於訓練Stable Diffusion。
由於LAION是開源的,所以不可能知道有多少其他公司使用了這個數據集。谷歌已經承認他們利用LAION來幫助訓練他們的Imagen和Parti AI文本到圖像模型。舒曼認為其他大公司也在悄悄地這樣做,只是沒有披露而已。
網絡最糟糕的地方
當他的兒子玩《我的世界》時,舒曼坐在客廳裏,將LAION比作“一艘小型研究船”,漂浮在“巨大的信息技術海嘯”之上,取樣展示世界下方的內容。
“這只是互聯網上公開可用內容的一小部分,”他談到LAION的數據庫時説。“獲取起來非常容易,因為即使是我們,可能只有來自捐贈者的1萬美元預算,也能做到。”
但公開可用的內容並不總是公眾想要看到的,也不一定是合法允許查看的。除了安全適宜的貓和消防車照片外,LAION的數據集中還包含數百萬張色情、暴力、兒童裸體、種族主義迷因、仇恨符號、受版權保護的藝術作品以及從私人公司網站上抓取的作品。舒曼表示他並不知道LAION的數據集中是否包含兒童裸體照片,儘管他承認自己並沒有深入審查數據。如果收到有關此類內容的通知,他表示會立即刪除相關鏈接。
在開始組建數據庫之前,舒曼諮詢了律師並運行了自動工具來過濾非法內容,但他對清理LAION的內容並不感興趣,而是更願意從中學習。“我們本可以從我們發佈的數據中過濾掉暴力內容,”他説,“但我們決定不這樣做,因為這將加快暴力檢測軟件的開發。” LAION確實提供了一個索要刪除照片的表單,但該數據集已經被下載了數千次。
從LAION中提取的冒犯性內容似乎已經被整合到了Stable Diffusion中,儘管最近加強了過濾器,但仍然很容易生成虛假的伊斯蘭國斬首照片或大屠殺圖像。一些專家認為這樣的材料也可能在AI生成器內部產生偏見:像Dall-E-2和Stable Diffusion這樣的工具已經因在沒有暗示主體種族的文本提示的情況下再現種族刻板印象而受到批評。
這些偏見是谷歌決定不發佈Imagen的原因,該模型是在LAION上訓練的。
在被要求發表評論時,Stability AI表示,他們在LAION數據庫的精心篩選子集上訓練了Stable Diffusion。該公司試圖在電子郵件中寫道,他們試圖為模型提供比原始SD更多樣化和廣泛範圍的數據集,並補充説他們試圖使用LAION的NSFW過濾器來刪除成人內容。
即使是支持基於開源的人工智能的倡導者也警告稱,在未經篩選的數據集上訓練人工智能的後果。根據Hugging Face的機器學習和社會團隊負責人Yacine Jernite的説法,基於受污染數據的生成式人工智能工具將反映其偏見。“模型非常直接地反映了它所接受的訓練。”
在產品上線後引入防護措施是不夠的,Jernite補充説,因為用户總是會找到規避安全措施的方法。“當你拿一個模型來模擬人們在互聯網上的行為,然後説,‘好吧,但不要這樣做’時,人們會找到辦法讓它仍然做那些事情,”他們説。
數據非營利組織Common Crawl的創始人Gil Elbaz懷疑“你無法從訓練集到最終產出之間劃出一條直線”,而是將這個過程比作一個去博物館尋找靈感但被禁止複製藝術品的藝術家。相反,他説,“重要的是社會決定哪些用例是合法的,哪些是非法的。”
這不僅僅取決於社會。隨着歐洲監管機構制定法規以應對人工智能的使用,他們正面臨一個事實,即當前人工智能繁榮所挖掘的數據多年來一直在一個法律灰色地帶生成,而這個地帶現在才受到嚴肅審查。“沒有多年數據積累,AI不可能達到這種複雜程度,”歐洲議會議員Tudorache説。
但對於舒曼來説,應該監控的不是數據集。在他看來,人工智能的最壞情況是大科技公司通過將他們的工具定製到一個監管框架中來排擠開發者。他警告説:“如果我們試圖減緩速度並過度監管,最終可能存在一個巨大的危險,即只有少數大型公司能夠承擔所有的形式要求。”