Adobe的AI Firefly使用競爭對手的AI生成圖像進行訓練 - 彭博社

Rachel Metz, Brody Ford

2024-04-12

Adobe決定使用公司擁有版權或公共領域內容構建Firefly，旨在將Firefly區別於快速增長的生成人工智能市場。

攝影師：Rafael Henrique/SOPA Images/LightRocket/Getty Images)

去年Adobe Inc.發佈其Firefly圖像生成軟件時，該公司表示，這款人工智能模型主要是在Adobe Stock上進行訓練的，後者是其擁有數億授權圖像的數據庫。Adobe表示，Firefly是與Midjourney等競爭對手不同的“商業安全”選擇，後者通過從互聯網上抓取圖片進行學習。

但在幕後，Adobe也在一定程度上依賴於AI生成的內容來訓練Firefly，包括來自這些同樣競爭對手的AI。在許多關於Firefly如何比競爭對手更安全的演示和公開帖子中，Adobe從未明確表示其模型實際上使用了一些這些競爭對手的圖像。

訓練流行內容創作產品背後的AI模型需要大量數據，AI技術公司在使用受版權保護材料時受到越來越多的審查。像Midjourney、Dall-E製造商OpenAI和Stable Diffusion製造商Stability AI這樣的公司使用從互聯網上獲取圖像的數據集構建其媒體生成模型，這種做法已經引起了憤怒和訴訟，許多藝術家對此表示不滿。

“這顯示了對負責任人工智能定義的模糊性，也説明了擺脱法律問題，社會和文化問題，或倫理問題與生成內容的困難，” 在安大略省西部的西安大略大學擔任助理教授並研究人工智能社會和倫理影響的 Luke Stark説。

Adobe決定使用公司擁有版權和公共領域中的內容來構建Firefly，旨在區別於快速增長的生成人工智能市場中的AI圖像工具。該公司將其宣傳為對於對從幾個詞語中召喚圖像感興趣但擔心潛在版權問題的客户來説更具道德和法律合規性的選擇。Adobe表示，它不會基於其他人或品牌的知識產權生成內容，也會避免製作有害圖像。Adobe表示，

AI生成的內容進入了Firefly的訓練集，因為創作者被允許向Adobe的庫存市場提交數百萬張使用其他公司技術的圖像。“Adobe庫存集合中的生成AI圖像是Firefly訓練數據集的一小部分，” Adobe代表Michelle Haarhoff在9月份在一個為向市場貢獻作品的攝影師和藝術家組織的Discord羣組中寫道。

Adobe表示，用於訓練其AI工具的圖像中相對較少的一部分 — 約5% — 是由其他AI平台生成的。“每張提交到Adobe庫存的圖像，包括一小部分使用AI生成的圖像，都經過嚴格的審核流程，以確保不包括知識產權、商標、可識別的角色或標誌，或參考藝術家姓名，” 一位公司發言人説。

對這種做法的批評來自公司內部：自從Firefly成立以來，就有內部人士對將AI生成的圖像納入模型的倫理和視覺效果存在分歧，根據多位熟悉其發展的員工透露，他們要求匿名，因為討論是私密的。一些人建議隨着時間的推移讓系統擺脱生成圖像，但其中一人表示目前沒有這樣的計劃。

Adobe Stock在AI蓬勃發展期間增加了數百萬張圖片

來源：Adobe Stock，Wayback Machine

注：數字包括AI和標準圖像

Adobe對競爭對手的數據收集做法提出了批評。首席戰略官Scott Belsky去年表示，其他模型是建立在“公開抓取”的數據基礎上的。Firefly比OpenAI的類似模型更好的一個方式是，它通過僅在經許可或自由獲取的數據上進行訓練，來尊重創意社區，Adobe在其網站上表示。在去年三月的一篇名為“生成AI時代的負責任創新”的博客文章中，總法律顧問Dana Rao指出，生成AI“取決於其訓練數據的質量”。

“在策劃的、多樣化的數據集上進行訓練，從根本上為您的模型在生成商業安全和道德結果方面提供了競爭優勢，”他寫道，同時指出Adobe在Adobe庫存圖像、經許可內容和版權已到期的公共領域內容上對Firefly進行了訓練。

“我們推出Firefly時，我們的企業客户來找我們説，‘我們喜歡你們正在做的事情，我們真的很感激你們沒有在公開互聯網上竊取我們所有的知識產權，’”Adobe高級副總裁Ashley Still在本月早些時候在彭博智庫活動中説。

然而，Adobe從未公開明確Firefly在某種程度上是通過競爭對手工具的圖像進行訓練的，這些競爭對手工具據説不太道德。然而，根據彭博查看的消息，Adobe在公司在Discord上運行的至少兩個在線討論組中概述了這些細節 — 一個是關於Adobe Stock的，另一個專門討論Firefly的。

2023年3月，Adobe推出了Firefly作為“測試版”產品。那個月，與Adobe Stock合作的Raúl Cerón在Discord上發帖説，公司不打算使用生成的圖像來訓練即將推出的Firefly公開版本。

“一旦我們從測試版中推出，我們將為其準備一個新的訓練數據庫，不包括Gen AI內容在內，”他在六月的一篇帖子中寫道。

當Adobe宣佈Firefly於9月13日公開發布時，該公司還向Adobe Stock貢獻者支付了一筆特別的“Firefly獎金”，以獎勵“用於訓練第一個商業Firefly模型的Adobe Stock貢獻者”。根據與Adobe Stock社區合作的Mat Hayward在Discord上的消息，使用生成AI的貢獻者也是收到獎金的人之一。

Adobe Stock的圖像生成技術“增強了我們的數據集訓練模型，我們決定在Firefly的商業發佈版本中包含這些內容，” Hayward寫道。

閲讀更多： Adobe謹慎地將AI注入一切的冒險

作家兼股票圖片供稿人Brian Penny提交了成千上萬張使用Midjourney製作的AI生成圖像到Adobe Stock，他驚訝地獲得了獎金。他認為作為AI貢獻者，他不應該有資格獲得獎金。儘管有經濟收益，但Penny認為將Firefly訓練在諸如他的內容之類的內容上是一個錯誤，他説公司應該更坦誠地説明他們是如何訓練用於創建圖像的軟件的。

“他們需要做到道德，他們需要更透明，他們需要做更多，”他説。

自從2022年底開始正式接受AI內容以來，Adobe Stock的庫存已經激增。如今，大約有5700萬張圖像，約佔總數的14%，被標記為AI生成圖像。提交AI圖像的藝術家必須指明作品是使用技術創建的，儘管他們不需要説明使用了哪種工具。為了提供AI訓練集，Adobe還提供支付給供稿人提交大量照片進行AI訓練的服務，比如香蕉或旗幟的圖像。

在AI生成內容上進行訓練可能不會使Adobe的Firefly圖像生成器在商業上更加安全，只要不誤導消費者，公司就不需要説明它正在進行什麼訓練，”專注於版權和廣告法的哈佛教授Rebecca Tushnet説。但是在AI圖像上進行訓練，比如那些由Midjourney創建的圖像，會削弱Firefly與競爭服務的獨特性，她説。

“Adobe基本上希望將自己定位為更優越的選擇，但它也希望獲得非常便宜的輸入，而人工智能是獲得廉價輸入的一種很好的方式，”她説。