讓位吧,大型語言模型小型人工智能模型將是下一個大趨勢 - 彭博社
Rachel Metz
智能手機上的ChatGPT聊天界面。
攝影師:Gabby Jones/Bloomberg
攝影師:David Paul Morris/Bloomberg多年來,像谷歌這樣的科技巨頭和像OpenAI這樣的初創公司一直在競相構建越來越大、成本更高的人工智能模型,使用大量的在線數據。部署在像ChatGPT這樣的聊天機器人中,這項技術可以處理各種複雜的查詢,從編寫代碼和規劃旅行到撰寫關於冰淇淋的莎士比亞十四行詩。馬克·麥奎德正在押注於一種不同的策略。他共同創立的初創公司Arcee.AI幫助公司訓練和推出一種越來越受歡迎且體積更小的人工智能方法:小型語言模型。Arcee的軟件並不是試圖做ChatGPT能做的所有事情,而是幫助完成一組更有限的日常企業任務——例如,構建一個僅處理與税務相關問題的服務——而不需要那麼多數據。“我説99%的商業用例,你可能不需要知道1968年誰贏得了奧運會金牌,”麥奎德説。位於邁阿密的Arcee是越來越多重新思考科技行業傳統智慧的公司之一,即更大並不總是更好。受到數十億美元風險投資的推動,初創公司相互競爭,開發更強大的大型語言模型,以支持人工智能聊天機器人和其他服務,Anthropic首席執行官達里奧·阿莫代伊預測訓練模型的成本最終將達到1000億美元,而今天是1億美元。
這種思維方式當然仍然存在,但像 Arcee、Sakana AI 和 Hugging Face 這樣的初創公司現在通過採用更小且更實惠的方法來吸引投資者和客户。大型科技公司也在學習如何思考小型化。Alphabet Inc. 的 Google、Meta Platforms Inc.、OpenAI 和 Anthropic 最近都發布了比其旗艦大型語言模型(LLMs)更緊湊、更靈活的軟件。圍繞小型模型的勢頭受到多種因素的推動,包括新的技術進步、對大型語言模型所需的巨大能源需求的日益關注,以及為企業提供更廣泛的 AI 選項以滿足不同用途的市場機會。小型語言模型不僅對科技公司來説更便宜,而且對商業客户使用也更便宜,降低了採用的門檻。鑑於投資者對 AI 風險投資的高成本和不確定回報越來越擔憂,更多科技公司可能會選擇這條道路。
Arcee 的首席執行官 Mark McQuade來源:Arcee“一般來説,小型模型是非常合理的,”Hugging Face 的聯合創始人兼首席科學官 Thomas Wolf 説,該公司製作 AI 軟件併為其他公司託管。“只是很長一段時間我們不知道如何做好它們。”
Hugging Face已經磨練了使用更精心策劃的數據集和更高效地訓練AI模型的技術,Wolf説。7月份,這家初創公司發佈了一組三個開源的通用小型模型,稱為SmolLM,這些模型足夠緊湊,可以直接在智能手機和筆記本電腦上使用。這可能使得運行AI軟件比連接到遠程雲服務(這是大型模型所必需的)更快、更便宜和更安全。對更小替代品的需求顯而易見。Arcee.AI上個月融資2400萬美元的A輪,訓練了一個可以回答湯森路透税務問題的小型模型,併為技能提升公司Guild構建了一個職業教練聊天機器人。這兩家公司通過自己的亞馬遜網絡服務賬户運行這些模型。Guild與Target和Disney的員工合作,早在一年多前就開始考慮使用像OpenAI的ChatGPT那樣的大型語言模型,以便為更多人提供職業建議,而不僅僅是依靠人類教練團隊。根據Guild的AI負責人Matt Bishop的説法,雖然ChatGPT表現尚可,但並沒有達到公司所尋求的感覺。Arcee的小型語言模型目前正在被Guild測試,該模型是在數十萬次匿名對話中訓練的,這些對話是在其人類教練和用户之間進行的,Bishop説,這遠低於典型大型語言模型所使用的總數據量。他説,這項服務“真正體現了我們的品牌、我們的語氣、我們的精神”,並且與ChatGPT相比,Guild的員工在93%的情況下更喜歡該模型的響應。“當你的模型是一個小型模型時,你可以更狹窄和專注,真正聚焦於任務和用例,”McQuade説,“而不是擁有一個可以做任何你需要做的事情的模型。”OpenAI和其他大型AI公司一樣,也在多樣化其產品,並試圖在各個方面競爭。上個月,OpenAI推出了其旗艦GPT-4o模型的“迷你”版本,作為客户更高效和更實惠的選擇。OpenAI API的產品負責人Olivier Godement表示,他預計開發者將使用GPT-4o迷你來處理摘要、基本編碼和提取數據。同時,該公司的大型、昂貴模型將繼續用於更復雜的任務。“我們當然希望繼續開發前沿模型,推動這一領域的進步,”Godement之前對彭博新聞説。“但我們也希望擁有最好的小型模型。”即使在科技行業接受小型模型的同時,並不是每個人都同意如何定義它們。McQuade表示,這個術語是“主觀的”,但對他來説,它指的是參數數量在700億或更少的AI系統,這是指模型在訓練過程中捕獲的變量總數。按照這個標準,Hugging Face的SmolLM模型參數範圍從1.35億到17億,幾乎是微觀的。(如果這些數字聽起來仍然很大,考慮到Meta的Llama AI模型有三種尺寸,參數範圍從80億到4000億。)與AI快速發展的許多其他方面一樣,小型模型的標準可能會不斷變化。東京小型模型初創公司Sakana的聯合創始人兼首席執行官David Ha表示,幾年前看起來極其龐大的AI模型如今看起來“適中”。“大小總是相對的,”Ha説。
微軟公司和Palantir技術公司正在結合他們的政府雲計算和人工智能工具,旨在向美國國防和情報機構銷售軟件,包括OpenAI的GPT-4,用於機密任務。
作為協議的一部分,Palantir將其產品與微軟的Azure雲服務集成,面向政府客户,包括用於機密用途的工具,並將在這些保密雲中採用微軟的Azure OpenAI服務。這兩家公司週四在一份聲明中表示,產品的結合將使美國國防工作人員能夠處理後勤、合同和行動計劃等任務。