谷歌可在用户選擇退出後仍利用網絡內容訓練搜索AI——彭博社
Davey Alba
谷歌可以訓練其搜索專用AI產品(如AI概覽),即使出版商已選擇退出谷歌AI產品訓練,該公司產品副總裁週五在法庭作證時表示。
谷歌DeepMind副總裁Eli Collins稱,這是因為谷歌為出版商提供的AI訓練退出控制僅適用於其AI實驗室Google DeepMind的工作,不涵蓋公司其他部門。
“一旦將Gemini"AI模型"納入搜索部門,該部門就能利用出版商已選擇退出的數據進行訓練,對嗎?“司法部律師Diana Aguilar質詢道。
“正確——僅限於搜索用途,“Collins回答。
網站在搜索結果頂部使用AI生成查詢答案摘要,可能導致用户不再點擊獨立網站——出版商表示這種趨勢正侵蝕其收入。而谷歌正是利用這些網站的數據生成AI答案所需信息。
這場為期三週的華盛頓聯邦法院庭審旨在裁定谷歌應如何恢復搜索市場競爭。去年美國地區法官Amit Mehta裁定該科技巨頭非法壟斷搜索市場,現正評估反壟斷執法者提出的一系列整改方案。
閲讀更多:谷歌AI搜索轉型令企業感到"背叛”
美國司法部正敦促法院強制谷歌出售其廣泛使用的Chrome瀏覽器,並共享其用於生成搜索結果的關鍵數據。該機構還要求梅塔法官禁止谷歌付費成為其他應用和設備上的默認搜索引擎——這一限制將延伸至其AI產品(包括Gemini),政府認為這些產品從谷歌在搜索領域的非法壟斷中獲益。
司法部律師阿吉拉爾詢問柯林斯是否知道,除了谷歌DeepMind訓練AI模型所用的內容外,谷歌搜索部門還能獲取多少額外數據。當柯林斯回答不知道時,阿吉拉爾出示了一份2024年8月26日標題為"搜索GenAI<>Gemini v3"的文件。
根據該文件,在過濾掉出版商選擇不允許谷歌用於AI訓練的內容後,谷歌從1600億個"token”(內容片段)中移除了800億個。文件還列出了搜索"會話數據”(即用户與谷歌搜索互動期間收集的數據)以及YouTube視頻,作為可以增強谷歌AI模型的數據。
查看文件後,梅塔法官要求柯林斯澄清:“1600億token中移除800億,意味着50%是被出版商選擇退出的內容?”
“這是正確的。”柯林斯回應道。
隨後,谷歌的律師試圖證明,這家科技公司在搜索領域的主導地位並未阻礙其他AI公司激烈競爭,在其聊天機器人服務中提供準確、即時的結果。例如,如果用户向AI聊天機器人詢問體育比分,柯林斯作證稱,聊天機器人很可能會返回正確答案,因為開發該機器人的公司與體育比分提供商有商業安排——它不需要依賴網絡索引。
但證詞也顯示,谷歌已探索如何通過多年來運營全球最受歡迎的搜索引擎所收集的數據大幅改進其AI模型。在對柯林斯的交叉詢問中,美國司法部律師阿吉拉爾向這位谷歌副總裁展示了一份為谷歌DeepMind首席執行官德米斯·哈薩比斯準備的簡報文件。
在一段評論中,哈薩比斯曾考慮用大量搜索數據(包括搜索排名)訓練一個未指明的谷歌AI模型,以觀察這些數據相比未經此類訓練的模型能帶來多大提升。
“谷歌最終是否利用搜索數據構建了一個模型?”阿吉拉爾問柯林斯。
“據我所知沒有。”他回答。
“但至少哈薩比斯先生認為這值得研究?”她追問道。
“是的。”柯林斯説。