OpenAI、谷歌、Meta或Anthropic?企業最佳AI選擇指南 - 《華爾街日報》
Christopher Mims
我們都被關於最新一代人工智能如何改變人們生活、幫助企業提高生產力甚至導致裁員的新聞所淹沒。但這些海量信息並不能幫助任何人回答關於這些AI的最基本問題:哪一個最好?
因此,我走訪了那些深入應用全球最強大AI解決實際問題的企業高管、工程師和研究人員,瞭解他們的發現。
他們的回答讓我驚訝。關於谷歌、OpenAI、Anthropic和Meta的AI相對優缺點的實用建議很多。但總體信息是,最適合任何任務的AI取決於用户和任務本身。他們的見解也讓我們得以一窺整個AI領域的發展方向。
與半年前不同,如今企業要麼擁抱生成式AI可能帶來的成本節約和生產力提升——一些研究人員認為這正通向"通用"或類人AI——要麼就可能輸給那些會這樣做的競爭對手。
像對待員工一樣對待你的AI
如今最強大的AI不是你可以在自己的計算機上購買和運行的。它們只能通過雲端訪問。這使得通過輸入文檔、圖像和文本來測試它們很容易,但也意味着企業改變其行為的能力有限。
加拿大西安大略大學首席AI官馬克·戴利表示,測試這些AI更像是僱傭員工,而不僅僅是購買現成的軟件。
“人們期望聊天機器人能即開即用,但你必須花時間嘗試,看看哪些能勝任工作,就像對待員工一樣,”他補充道。
戴利發現,所有主流大語言模型——包括OpenAI、Anthropic、谷歌以及僅向企業提供模型的初創公司Cohere——都各有優劣。選擇哪一款取決於個人偏好和具體任務,值得逐一試用。
選擇ChatGPT永遠不會錯
其他公司似乎正在追趕OpenAI的能力,但目前OpenAI的模型仍是衡量其他產品的標準。本週早些時候,Anthropic發佈了新的大語言模型Claude 3,該公司宣稱其在所有基準測試中都擊敗了黃金標準GPT-4。
“我們正在瘋狂使用OpenAI,”幫助大公司應用AI的Nomad Data公司首席執行官布拉德·施耐德表示。該公司利用OpenAI消化、總結和搜索海量文檔庫,如法律簡報、法庭案件和保險索賠。其客户還包括私募股權公司,這些公司可能只有一週時間消化即將收購企業的數千份文件。
在嘗試所有最強大的大語言模型後,施耐德的公司發現,對於這類文檔處理任務,沒有哪家能比得上OpenAI。他發現Anthropic的Claude舊版本和谷歌Gemini現版本都存在頻繁幻覺問題。(AI領域的‘幻覺’指聊天機器人編造虛假信息。)
谷歌高級副總裁普拉巴卡爾·拉加萬最近撰文指出,幻覺是所有大語言模型面臨的共同挑戰,但"這是我們持續改進的重點"。Anthropic總裁丹妮拉·阿莫迪表示,將此類模型的幻覺率降至零"極其困難"。該公司稱,其最新模型準確回答問題的概率是前代的兩倍,但完全消除幻覺可能導致模型對原本能正確回答的問題也猶豫不決。
明確AI系統的核心需求
科學搜索引擎Consensus首席執行官埃裏克·奧爾森表示,除準確性外,還需重點考量速度和成本兩大因素。
在搜索引擎場景中,用户期望秒級響應。由於Consensus需將GPT-4生成的科學論文摘要與搜索結果配對,這些摘要必須近乎即時生成。
奧爾森指出,這意味着唯一真正適用的模型是OpenAI的GPT-4"turbo"版本,其響應時間僅1.5秒,比標準GPT-4快一倍。他補充道,谷歌Gemini和Anthropic的Claude模型響應速度也遜於OpenAI產品。
話雖如此,這種性能表現是有代價的。OpenAI及其競爭對手向企業用户按token(本質上是按字數)收費來處理請求。
“我們遇到過單個問題諮詢花費50美元的情況,“施耐德表示。例如當某人詢問涉及5000份法律文件的具體問題時,因為調用OpenAI系統的次數可能高達數萬次。
谷歌的優勢:規模效應
當OpenAI和Anthropic爭奪最強大型語言模型頭銜時,谷歌在多項基準測試中表現滯後。
但谷歌及其客户的一個優勢是,其模型能在每次查詢中處理海量數據。這是OpenAI目前無法提供的功能,而Anthropic僅向少數客户開放此服務。
“Gemini 1.5支持百萬級token的上下文處理,這徹底改變了遊戲規則,“戴利指出,“你可以輸入相當於10本教科書的內容量,它雖不完美但能在35秒內完成人類難以企及的綜合分析。”
微軟面臨的雙重挑戰
微軟在AI推廣中面臨兩個問題:首先,儘管與OpenAI深度合作,但本質上微軟是其服務的轉售商——而企業客户也可直接向OpenAI採購。
需要説明的是,微軟通過Azure雲服務提供了多款AI模型平台。例如既與Mistral建立了合作關係,也提供Meta開源的Llama模型。
“藉助Azure AI,我們正將最全面的高性能開源與前沿模型集合帶給全球最受信賴雲平台上的客户,”微軟AI平台副總裁埃裏克·博伊德表示。
亞馬遜雲服務採取類似策略,該公司已與Anthropic達成合作。
施耐德指出,當OpenAI發佈新功能時,微軟版本模型需要顯著延遲才能同步更新。他補充説,微軟版GPT-4似乎存在容量限制,而OpenAI原版則無此問題,這導致企業每分鐘可購買的令牌數受到更嚴格限制。
多數企業將自建AI系統
總部位於布拉格的Rossum公司首席AI架構師彼得·鮑迪斯認為,對於生成式AI的許多專業應用場景,企業可能希望自主構建訓練AI,或委託第三方開發。Rossum通過其研究團隊自主研發的多套AI系統,為企業提供發票自動化處理服務。
自主訓練大型語言模型看似不可能,但隨着Meta的Llama等開源模型快速發展,即便小型團隊也能實現這一目標。
所有受訪專家均表示,能力快速提升的開源大語言模型,其運營成本僅為使用OpenAI和谷歌模型的零頭。原因主要有二:首先是模型體積更小,運行能耗更低;其次因其可部署於自有服務器,省去了大型AI公司中間環節及其利潤抽成。
如果針對特定數據進行訓練並執行足夠專一的任務(如Rossum公司提供的發票處理服務),定製化的人工智能即使開源也能超越那些大型語言模型。
今日真理未必適用於明日
生成式人工智能正以互聯網早期爆發期以來罕見的速度進化。Anthropic公司發佈的模型在團隊規模更小、成立時間更短的情況下,展現出與OpenAI旗鼓相當的實力,這表明大型語言模型可能逐漸商品化。屆時,唯一重要的將是哪家公司能以最低成本提供最迅捷的響應。
這場激烈競爭的最大受益者將是各類企業——無論規模大小,它們員工的 productivity 可能獲得顯著提升。這些效益只需支付人類從事同類知識工作成本的一小部分。這對白領職業未來的影響不言而喻且令人憂心。
欲獲取更多《華爾街日報》科技板塊的分析、評測、建議與頭條新聞,請訂閲我們的每週通訊。
聯繫克里斯托弗·米姆斯請致信 [email protected]
刊載於2024年3月9日印刷版