當大模型公司都在卷大參數,面壁智能卻在儘可能把參數做小_風聞
极客公园-极客公园官方账号-38分钟前

做小參數模型背後,不僅挑戰模型訓練技術,更有深遠的現實和商業意義。
作者 | 幸芙
編輯| 靖宇****
在通往 AGI 的路上,絕大多數公司的路線是不斷做大參數,但面壁智能卻走了一條相反的路線——儘可能把模型參數做小。
2 月 1 日,面壁智能推出了只有 2B(注:20 億)參數量級的模型 MiniCPM,而其性能卻超過了大參數模型 Mistral-7B(法國大模型公司 Mistral 旗下知名模型)、且部分超越 Llama-13B(Meta 旗下知名開源大模型)等,內部稱之為「以小博大」。
這個結果揭露了這樣一個事實:很多超大參數的大模型,它們的模型效率或許並沒有最大化。
「我們希望探索模型性能的天花板。」面壁智能聯合創始人劉知遠教授稱。他認為,從技術研判而言,2023 年 ChatGPT 和 GPT-4 的推出,表明大模型技術路線已經基本確定,接下來就是要探索其科學機理,並極致地優化效率。
他表示,在 Mistral-6B 的同一模型水平下,面壁智能團隊的模型參數量是最小的。這或許意味着模型的效率被提升到了最高水平。「我覺得我們做了一件挺牛的事。」他笑着説。

MiniCPM 在多項主流評測榜單、中英文平均成績超越 Mistral-7B | 圖片來源:面壁智能
面壁智能成立於 2022 年,由清華 NLP 實驗室的劉知遠副教授帶頭成立。這是國內最早研發大模型的團隊之一,早在 2020 年,團隊就發佈了全球首個 20 億級中文開源大模型 CPM。直到去年 4 月,面壁智能接受了知乎投資,不久後知乎 CTO 李大海成為面壁智能 CEO。這家公司開始完成從學術界到商業界的轉身。(見極客公園專訪《對話面壁智能:和知乎的優勢互補,會加速大模型的研發》)
此次面壁智能做小參數模型背後,不僅是為了挑戰模型訓練技術,更有深遠的現實和商業意義。
更小的參數意味着更低的部署門檻、更低的使用成本——這意味着它能在手機等終端上運行,甚至僅靠一塊 CPU 就能運載,面壁智能因此將 MiniCPM 稱為端側大模型——它帶來的意義是,模型能被更廣大人羣應用、也有更好的商業化前景。
「無論是面壁還是清華 NLP 實驗室,我們的夢想就是實現 AGI(通用人工智能)。任何完成這個目標需要做的,就是我們要做的事情。」關於 MiniCPM 背後的思考決策,劉知遠如此説道。
01
模型訓練
不再「玄學」
面壁團隊之所以嘗試「以小博大」路線,跟 Mistral-7B 有些淵源。
去年 9 月,剛發佈的 Mistral 7B 是「以小博大」的標杆之作:它只有 7B 大小,卻擊敗了參數量大得多的 Llama(注:所有基準測試中均優於 Llama 2 13B、並在許多基準測試中均優於 Llama 1 34B)。這引起了整個大模型行業的廣泛關注。劉知遠説,自此之後他心裏就種下種子,希望讓團隊也嘗試一下模型「以小博大」。
這極其考驗模型的訓練技術和效率。
一直以來,大模型的訓練過程被戲稱為「煉丹」:核心是加大參數,整個訓練過程卻難以捉摸、全憑感覺,很少沉澱為科學系統的訓練技術——不過,各大模型團隊都在為此努力,希望將自家的訓練技術從「玄學」變成「科學」。
面壁智能也在做這樣的嘗試。2023 年,團隊做了上千次的「沙盒實驗」(注:在擬真測試環境下,通過控制變量等方法,找到模型訓練背後的科學原理和規律),對大模型的訓練機理有了較為深刻的理解。「就像造飛機需要空氣動力學的支持,我們團隊致力於把大模型的研究科學化。」劉知遠説。
這也是他想研發 MiniCPM 的重要原因,「我想檢驗一下我們(總結)的訓練科學,是不是真的科學。」他説。

面壁智能模型「沙盒試驗」| 圖片來源:面壁智能
結果驗證了他的期待。僅通過兩週的訓練,MiniCPM 就成功實現了以小博大。這證明了團隊的訓練技術符合一定科學。劉知遠稱,此次結果是過往沙盒實驗「厚積薄發」的結果。「我們希望通過 MiniCPM 讓大家認識到,即使 2B 尺寸大模型的效果極限,還沒有被充分挖掘出來,這是一個科學問題也是一個技術問題,需要大家共同探索。」他説。
目前,面壁智能團隊已將 MiniCPM 背後的訓練方法、過程寫成文章,發佈到 Github 上。
當然,除了訓練技術本身,其他的要素也很重要——比如優質數據集、Infra(AI 基礎設施層的軟件) 等。此次,面壁智能僅靠 1TB 的精選數據訓練就完成了模型的「以小博大」,當問到數據的來源是否跟知乎有一定關係時,「知乎起了很重要的作用,但最終還是算法自動選取的結果。」李大海對極客公園説。
Infra 方面,面壁智能表示,團隊全流程優化加速工具套件平台,可以實現 10 倍推理加速,90% 成本降低。

或許因為諸多因素才研發出了 MiniCPM,所以團隊並不擔心公開訓練的方法、過程。「模型的訓練方法很多是內化的經驗,不一定對着一個已有的論文就能訓出好模型,這些經驗可能會是一種壁壘。」MiniCPM 的模型訓練負責人、面壁智能研究員胡聲鼎説。
02
端側小模型,********「直供」手機廠
作為一款小參數模型,MiniCPM 能部署在手機等終端設備上,主要被定位為端側模型。目前,MiniCPM 已跑通了國際主流手機品牌和終端 CPU 芯片。
為什麼有了雲端模型,依然要端側模型?從用户的角度來説,假設遇到極端的斷網等情況(面壁團隊現場舉了户外探險的例子),用户依然可以通過端側模型獲得服務。這實際上拓寬了用户使用模型的場景。

MiniCPM 可搭載的手機型號 | 圖片來源:面壁智能
而從開發者的角度來説,端側模型能幫助他們減輕算力負擔、降低算力成本。
以算力負擔為例,李大海稱假設大模型領域出現了超級應用,需要成百上千萬人同時在線,用户都在雲端使用模型的話,算力帶寬和成本,對於創業團隊來説都將難以承受。
以算力成本為例,李大海現場用一台搭配驍龍 855 芯片(高通於 2018 年推出手機芯片)的手機做了一道數學題。按照運行 5 年計算,每秒 7.5 tokens,那麼 170 萬 tokens 的推理成本僅需人民幣 1 元,成本僅為 Mistral-Medium 的百分之一。
劉知遠認為,未來大模型一定是雲端共存、協同的模式——就像人類的智能需要分佈於大腦、小腦,未來的大模型的智能也會分佈於雲、端——它們各有不同的分工,就像大腦負責高級智能、小腦負責基礎智能一樣,未來大模型的高級智能將由雲端實現,而基礎智能將由終端實現。
自去年 7 月以來,大模型上終端一直是行業普遍趨勢。榮耀、華為、小米、OPPO、vivo 等手機廠商均推出了自己的終端大模型。當問到相比手機廠商,面壁智能做終端大模型的優勢是什麼時,李大海稱未來如果雲端需要聯動,由同一個模型廠商做會更高效。
目前,面壁正在跟許多終端廠商溝通,探討將 MiniCPM 這款小模型落地的可能。

面壁智能 CEO 李大海、聯合創始人兼首席科學家劉知遠 | 圖片來源:面壁智能
如果説雲端模型主要賣的是 API 調度費、解決方案,那麼端側模型的商業模式或有所不同——李大海表示,目前 MiniCPM 已經開源、經授權後可商用,未來將主要從模型授權費中獲取商業收入。「端側模型有端側模型的落地模式和場景,(雲端)大模型有(雲端)大模型的落地模式和場景。」他説。
和 Meta 一樣,面壁也是將 MiniCPM 這樣的端側大模型和其它規模較小的大模型開源,將旗下 CPM-Cricket 等千億大模型閉源。目前,面壁智能的模型收入主要來自 B 端,主要集中在金融、營銷等領域,目前已有招商銀行、易車網、義烏小商品集團等客户。
談及面壁智能未來的發展規劃,李大海稱,一方面是繼續加強模型能力,無論是小模型還是大模型,並在此基礎之上繼續探索 Agent、上層應用的發展。另一方面則是探索落地和商業化。
「説實話我對我們的模型技術能力有信心,所以未來我們的重心會放在商業化上。」他説。
*頭圖來源:面壁智能
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO