獨家：多家人工智能公司繞過網絡標準來爬取出版商網站，許可公司表示 | 路透社

Katie Paul

2024-06-22

AI（人工智能）字母和機器手微型圖，攝於2023年6月23日。路透社/Dado Ruvic/Illustration/文件照片 6月21日（路透社）- 內容許可初創公司TollBit告訴出版商，多家人工智能公司正在規避一種常用的網絡標準，該標準用於阻止其內容被用於生成式人工智能系統中的抓取。

週五路透社看到的一封致出版商的信件沒有提及受影響的人工智能公司或出版商，此信件出現在人工智能搜索初創公司Perplexity和媒體機構福布斯之間的公開爭執中，涉及相同的網絡標準以及科技和媒體公司在生成式人工智能時代內容價值的更廣泛辯論。

商業媒體出版商公開指責 Perplexity未經福布斯許可，在AI生成的摘要中剽竊其調查報道。一篇《連線》的調查本週發現Perplexity可能繞過了通過Robots Exclusion Protocol或“robots.txt”阻止其網絡爬蟲的努力，這是一種廣泛接受的標準，旨在確定站點的哪些部分允許被爬取。Perplexity拒絕對有關爭端的路透社請求發表評論。

代表超過2200家美國出版商的貿易團體新聞媒體聯盟對忽略“不要爬取”信號可能對其會員造成的影響表示擔憂。

該團體的總裁丹妮爾·科菲表示：“如果不能選擇退出大規模抓取，我們就無法從我們寶貴的內容中獲利並支付記者。這可能嚴重損害我們的行業。”

早期創業公司TollBit正在將自己定位為內容需求旺盛的人工智能公司與願意與它們達成許可協議的出版商之間的媒人。

該公司跟蹤人工智能公司對出版商網站的流量，並使用分析幫助雙方就不同類型內容的使用費達成協議。

例如，出版商可以選擇為“高級內容，如最新新聞或獨家見解”設定更高的費率，該公司在其網站上表示。

據稱，截至五月，該公司已有50個網站上線，儘管尚未透露它們的名稱。

根據TollBit的信函，Perplexity並非唯一一家似乎在無視robots.txt文件的違規者。

TollBit表示，其分析顯示“許多”人工智能代理正在繞過該協議，這是出版商用來指示其網站哪些部分可以被爬取的標準工具。

“從實際角度來看，這意味着來自多個來源（不僅僅是一家公司）的人工智能代理選擇繞過robots.txt協議從網站檢索內容，”TollBit寫道。“我們攝入的出版商日誌越多，這種模式就越明顯。”

robots.txt協議是在上世紀90年代中期創建的，旨在避免網站被網絡爬蟲過載。儘管沒有明確的法律執行機制，但歷史上網絡上普遍遵守，一些團體 - 包括新聞媒體聯盟 - 表示出版商可能會有法律救濟。

最近，robots.txt已成為出版商用來阻止科技公司免費獲取其內容用於生成人工智能系統的關鍵工具，這些系統可以模仿人類創造力並即時總結文章。

這些人工智能公司既用內容來訓練他們的算法，也用來生成實時信息的摘要。

一些出版商，包括紐約時報，已經起訴人工智能公司侵犯版權。其他人則簽訂許可協議，允許人工智能公司付費使用內容，儘管雙方經常在材料的價值上存在分歧。許多人工智能開發者辯稱，他們在免費獲取內容方面沒有違法。路透社的所有者湯姆遜·路透社是那些已經達成協議，授權人工智能模型使用新聞內容的公司之一。出版商特別警惕新聞摘要，因為谷歌去年推出了一款產品，使用人工智能對某些搜索查詢創建摘要。如果出版商希望防止他們的內容被谷歌的人工智能用來生成摘要，他們必須使用同樣的工具，這也會阻止他們出現在谷歌搜索結果中，使他們在網絡上幾乎看不見。

通過訂閲《在競選之路上》新聞簡報，每週獲取有關美國選舉的新聞和分析，以及它對世界的影響。在這裏註冊。