英媒:“小而美”語言模型正崛起
作者:蒋礼译
英國《經濟學人》9月8日文章,原題:對被“神化”的大語言模型的信仰正在崩塌 當科技圈談及大型語言模型進展乏善可陳時,常用智能手機作類比:早期OpenAI公司推出ChatGPT帶來的革命性影響力堪比2007年iPhone問世,但如今大語言模型的迭代更像普通手機的小幅升級。ChatGPT-5最新發布後,熱度甚至不及最新亮相的iPhone 17。
更值得關注的是小型語言模型在企業中的崛起。許多公司更傾向於量身定製的AI模型,以滿足自身特定需求。一些企業在人力管理等方面無需大語言模型“全知全能”的能力,小語言模型成本低、易部署,反而更經濟高效。萬國商業機器公司研究負責人大衞·考克斯表示:“你的‘人力資源’聊天機器人並不需要掌握高深物理知識。”
小語言模型不僅能在公司內部IT系統運行,也適合嵌入智能手機、自動駕駛汽車、機器人等對能耗與速度敏感的設備。小語言模型可靠性逐步提高,可能表明蘋果等廠商未大舉投資雲端大語言模型是明智決策。
何謂“小語言模型”?業內並無明確界定。兩者區別主要在於訓練參數數量:大語言模型可達數千億,小語言模型通常在40億甚至低於1億。訓練方式的改進,使小語言模型逐漸縮小與大語言模型的差距。例如,英偉達最新推出的9億參數新款AI模型,在多項測試中超過“元”公司今年4月發佈的40倍參數的模型。市場研究公司的阿格拉瓦爾表示:“今天的小模型,比去年的大模型更強大。”
企業需求推動了小語言模型發展。信息技術研究和諮詢公司高德納表示,大語言模型的“AI幻覺”等問題導致用户疲勞,企業更青睞在行業數據上微調的專業模型。今年企業對小語言模型的需求增速預計是大語言模型的兩倍。
成本考量也促使小語言模型受歡迎:重複、可標準化的任務可用小語言模型完成,而無需調用資源消耗巨大的大語言模型。萬國商業機器公司的Docling產品便是例子:僅用約2.5億參數的小語言模型即可執行轉化數據的任務,用大語言模型反而不划算。小語言模型也可以在更便宜的芯片上運行,能降低硬件成本。
小語言模型在AI代理中也具優勢。英偉達公司的研究認為,小模型有潛力成為“代理型AI”的核心,能以更低成本完成任務,並支持“樂高式”組合——用多個專業小模型替代單一大語言模型。這一點凸顯了小語言模型在經濟與靈活性上的吸引力。未來,大語言模型仍將主導如ChatGPT等消費者應用,但企業與設備端AI可能更多采用小語言模型。OpenAI自身也在內部使用不同規模模型,以任務複雜度分配資源。(蔣禮譯)