在DeepSeek爆紅之前,一家網站已預告其到來——彭博社
Rachel Metz
插圖:Patrik Mollwing為《彭博商業週刊》繪製對全球大多數人而言,深度求索(DeepSeek)似乎於今年1月橫空出世,其開源人工智能軟件與OpenAI和谷歌的模型分庭抗禮——據稱其開發成本僅為競爭對手的零頭。
但對於Chatbot Arena網站的粉絲來説,這一幕多少有些令人無奈:他們早已持續數月,觀察並評分這家中國公司旗下模型的迭代進程。
Chatbot Arena誕生於2023年初,正值OpenAI發佈ChatGPT引發狂潮後不久。這個由加州大學伯克利分校Sky Computing實驗室發起的研究項目,彙集了眾多尖端AI模型。訪客通過體驗這些模型驅動的聊天機器人,根據表現投票決定其排行榜名次。Chatbot Arena負責人、伯克利博士後研究員江威霖表示:“一個以真實衡量AI進展為使命的獨立第三方至關重要。每個公司都自稱擁有最佳模型,透明度和獨立性才是破局之道。”
Chatbot Arena的江偉林(音譯)與阿納斯塔西奧斯·安傑洛普洛斯在加州伯克利的實驗室空間。攝影師:勞拉·莫頓/華爾街日報Chatbot Arena迅速成為早期用户的熱門聚集地,併成為AI基準測試快速演進領域的重要風向標:每月訪問量達百萬次。頂尖AI公司和開源新秀都來測試他們的新模型。部分企業甚至在公開發布前就提交模型測試(如OpenAI去年春季的GPT-4o)。
彭博社商業週刊至少Neuralink進展順利隨着更多女性開始舉重,健身房或將永遠改變男性氣質強勢迴歸商業領域,福禍難料不確定時代的九種畢業禮物創意當測試表現優異時,這將成為炫耀資本的來源,正如深度求索公司所示,甚至能獲得國際關注。Chatbot Arena用户測試了該公司的多個開源模型,每個模型都在網站主排行榜上節節攀升。其最新推出的V3(類似驅動ChatGPT的大語言模型)和R1(需更長時間計算響應)分別於去年12月末和今年1月登陸平台,排名迅速上升。
發佈後的幾天,在一個週五,R1躍升至第三位,超越了o1,OpenAI的類似推理模型。DeepSeek的聊天機器人應用開始在移動應用商店中登頂,包括那個週末在蘋果公司美國應用商店和幾天後的Google Play商店。包括風險投資家馬克·安德森和OpenAI首席執行官薩姆·奧爾特曼在內的知名人物對其讚不絕口。那個週一,投資者從美國和歐洲科技股的價值中抹去了近1萬億美元,因為DeepSeek引發了科技行業在AI基礎設施上可能過度支出的可能性。
Chatbot Arena的領導者蔣和阿納斯塔西奧斯·安傑洛普洛斯,也是加州大學伯克利分校的博士後,對此並不感到意外。“説實話,看到這樣的模型登頂並不特別令人驚訝,”安傑洛普洛斯説。“生態系統將繼續發展。一個月後,登頂的不會是DeepSeek-R1,而會是另一個不同的模型。”
Chatbot Arena並不是唯一提供公開AI基準測試的項目。像SWE-Bench或Humanity’s Last Exam這樣的努力評估尖端AI模型在各種任務上的表現,比如回答數學或編程問題,或解決人類已知的一些最難題。標準化程度不高,也沒有官方組織監督模型的測試方法。該領域的進展如此之快,以至於新模型可能很快使現有評估顯得過時。(還記得圖靈測試嗎?)
聊天機器人競技場衡量的是使用每款產品的實際感受。“可以稱之為氛圍感;另一種説法是真實場景用例測試,”Chiang表示,“如果你是開發ChatGPT的OpenAI,你會關心你的用户。”
截至2月初,聊天機器人競技場已累計上線200多個模型,包括來自Anthropic、谷歌、Meta Platforms、OpenAI和xAI的模型,其中90個仍可供用户試用。企業通常與聊天機器人競技場合作將其模型上線,並支付用户測試產生的費用。該網站是開源的,其數據和代碼可供他人使用,並得到一些外部資助支持,如來自風險投資公司Andreessen Horowitz和紅杉資本。由於是學術研究項目,加州大學伯克利分校的學生主要負責維護聊天機器人競技場的運營。
訪客會收到彈窗提示,告知該網站為研究項目。他們需要向兩個匿名聊天機器人提問,然後選擇最喜歡的那個。投票後,每個聊天機器人的名稱會揭曉。這些投票用於創建評估模型實力的評級體系;這是國際象棋Elo系統的變體,根據一對一對抗結果分配評級。
用户目前已為最喜愛的語言模型投出超過260萬票。由於無需登錄,聊天機器人競技場團隊成員無法識別個人用户。但他們會大致分類用户喜歡向聊天機器人提出的提示類型。關於計算機編程和創意寫作的問題特別受歡迎,例如提示詞:“用對句寫一首詩,通過換行營造動感和懸念;主題關於蘋果。”
聊天機器人競技場排名帶有一種權威性的光環。但實際上,它們衡量的是非常具體的內容:即該平台受眾的反應(這個羣體似乎更偏向於對機器學習等話題感興趣的學術型人士)。排名系統"非常酷,我們也樂於參與,但它並不能真正代表’這個模型好用嗎?企業是否容易採用?’"尼克·弗羅斯特説道,他是Cohere公司的聯合創始人,該公司專門為企業定製人工智能模型。
也有人擔心評分可能被操縱。在發佈於Arxiv的最新論文中(該平台是未經同行評審的公開研究檔案庫),研究人員通過模擬投票作弊來指出聊天機器人競技場可能存在的漏洞。安傑洛普洛斯和蔣表示,該網站已採取多項保護措施來防範惡意使用。安傑洛普洛斯稱,目前沒有發現針對該網站的成功攻擊證據。
蔣、安傑洛普洛斯及其合作團隊正致力於改進聊天機器人競技場社區,同時擴展測試類型。他們已開始支持包括圖像生成器在內的其他類型AI模型。鑑於所受到的關注,研究人員也不排除未來商業化的可能性。“我們確實在考慮這個問題,“蔣表示。