泰勒·斯威夫特,特拉維斯·凱爾斯的傳聞在谷歌反壟斷審判中討論 - 彭博社
Leah Nylen
Taylor Swift在週日的堪薩斯城酋長隊對芝加哥熊隊比賽中。
攝影師:David Eulitt/Getty ImagesChatGPT不知道Taylor Swift是否正在約會堪薩斯城酋長隊的緊密端特拉維斯·凱爾斯。
這個例子是微軟公司執行官米哈伊爾·帕拉欣本週在美國司法部具有里程碑意義的反壟斷審判中使用的,用來説明谷歌母公司Alphabet Inc.市場主導地位的搜索引擎無法輕易被新技術(如聊天機器人)取代或挑戰。
OpenAI的聊天機器人允許用户輸入查詢並獲得書面回覆,但用於訓練人工智能系統的數據基於從網絡中收集的舊信息。沒有新鮮數據——比如用户搜索流行歌手最新男友這類新主題提供的數據——它不太可能提供準確答案。
據稱Swift的新男友凱爾斯,這位兩次獲得超級碗冠軍的美國橄欖球運動員,在ChatGPT中不會出現,但在微軟的必應搜索引擎中會出現,帕拉欣告訴監督華盛頓特區案件的美國地方法官阿米特·梅赫塔。
聊天機器人“用於推理和提供答案,但基礎信息來自搜索,”帕拉欣説,他在2019年加入微軟之前曾擔任俄羅斯搜索引擎Yandex NV的首席技術官。
美國司法部對谷歌的反壟斷訴訟涉及的行為可以追溯到2002年。但反壟斷執法者表示,這個案件可能會影響未來的互聯網,因為科技公司開始將人工智能融入產品中。
月球規模
審判中的一個關鍵分歧是關於搜索引擎的“規模”,這個術語指的是它從網站和用户那裏收集的數據量。搜索引擎爬行網絡以創建一個索引 —— 一個地圖,使得搜索引擎能夠更快地根據查詢提供相關鏈接。司法部表示,谷歌的索引是世界上最大的,如果打印出來,這個堆疊物會達到月球來回12次的長度。
因為讓爬蟲獲取數據對網站來説是需要花錢的,他們通常會限制允許哪些搜索引擎收集數據。例如,流行的問答網站 Quora Inc. 只允許谷歌的爬蟲,不允許必應或其他搜索引擎的爬蟲,Parakhin説。
“如果你不是一個大型搜索引擎,網站就不會讓你對它們進行索引,”他説。“如果網站不允許你,你再怎麼索引數據也沒用。”
在審判的早期證詞中,谷歌 首席經濟學家 Hal Varian 和工程師 Eric Lehman 作證稱,搜索引擎收集的用户數據如今已不再那麼重要,而基於這些數據的大型語言模型等新技術並不需要它。
“我以為用户數據對幫助機器學習語言至關重要。結果表明,這些非常龐大的機器學習系統可以簡單地從文本中學習,”Lehman説道。Lehman在2022年離開谷歌之前曾參與谷歌搜索工作17年。“用户數據仍然會發揮作用,但我認為它的作用會大大減弱。”
然而,微軟的Parakhin表示,即使是新技術也無法完全取代數據劣勢。Bing的數據對不僅對微軟重要。其他搜索引擎,包括DuckDuckGo,其首席執行官 Gabriel Weinberg上週在庭審中作證,以及雅虎都依賴Bing的數據來構建自己的結果。
“你可以在一定程度上減輕規模效應。我們還沒有能夠扭轉這種影響,”Parakhin説道。“我們看到一些公司在嘗試。但我們還沒有看到任何人取得成功。”
在Parakhin作證期間,法官問他,一家公司是否可以僅憑ChatGPT這樣的大型語言模型構建一個“高質量的搜索引擎”。
“構建一個在某個查詢領域表現良好的搜索引擎是非常容易的,”Parakhin説,“就像構建一個可以在空曠停車場內行駛的自動駕駛汽車一樣容易。”
“即使使用最好的算法,即使使用大型語言模型,構建一個具有競爭力的完全功能的搜索引擎也是極其困難的,”他説。