AI大模型、中模型、小模型誰主沉浮?_風聞
汪涛_纯科学-自由撰稿人-纯科学创始人,致力于将完善的科学方法引入社会领域1小时前
大模型,小應用;中模型,大應用;小模型,廣應用。
一、對通用人工智能十年前的疑問
前幾天參加了2024中國移動全球合作伙伴大會,主題是“智煥新生 共創AI+時代”。
自從2023年初ChatGPT火爆以來,我對人工智能大模型一直持謹慎態度。事實上,我接近10年前就在硅谷看過很多通用人工智能的項目,OPEN AI也是當時剛剛成立,我在看一些相關領域的項目時對這個方向或賽道存在一定的疑問,就此與當時硅谷的眾多創業者進行過交流,但當時沒有一個人能夠解釋清楚我的疑問。可以説,這個疑問在這一次中國移動全球合作伙伴大會上終於得到答案。以下先説下這個疑問的具體內容。
我們不要一遇到新的技術,就以為它會帶來無限遐想的發展空間,那一方面是因為沒完全瞭解這個技術的確切含義,另一方面是在不完全清楚技術內涵的前提下吸引投資者關注。事實上,無論任何技術都會有最基本的、普遍性的規律約束存在,但人們往往會在遇到新技術時把這些規律給忘了。尤其是在人工智能領域,這個問題表現得最為空出。這個一切技術都會有的最重要的普遍規律之一就是:
任何實用的技術都需要平衡成本與性能,因此一切實用的產品定義必須在一開始就清楚地界定實現的範圍和性能表現,需要用盡可能低成本的硬件去實現足夠滿足需求的產品。一切實際的產品實現目標都不能是無限擴張的。因為實際能獲得的硬件性能無論多麼強大,永遠都會是有限的。如果用有限的硬件性能去實現無限擴張的“通用智能需求”(“通用人工智能”這個概念很容易成為失控的、無限擴張的功能和性能需求),其實際產品表現與收縮為明確界定範圍的需求相比,肯定是後者更為可靠和品質更為優異。如果用品質更為可靠的專業產品相互累積或聯網,不是也可以實現通用人工智能嗎?而且其性能表現還更為可靠和優異,產品成本也可控。這麼來看,就存在一個疑問:開發通用人工智能合理的理由是什麼?
現在人工智能AI+的發展趨勢,事實上證明了我當時的疑問在相當大程度上是有道理的。所謂AI+就是在各個具體領域的專業應用。
但我也已不得不意識到,不管怎樣,通用人工智能的確是在市場上火爆起來了,那麼就得對這個火爆的原因給出一個合理的解釋。
完全通用的人工智能現在都稱為“大模型”,我們就把各個專業、行業或企業領域的應用稱為“中模型”,延申到終端或家庭裏的稱為“小模型”。現在的實際情況就是:大模型小應用,中模型大應用,小模型廣應用。
模型越小,產品定義的功能和性能目標就收縮得越小、越清晰,需要的硬件計算量就越小,成本越低且實現的產品功能和性能更為可靠和穩定。
二、大模型的小應用是什麼?
大模型的火爆有多種原因,有些甚至是人為的。但的確有一個客觀存在的成功原因:就是它“成為一個新的更好的通用人機接口”,這一點是此前從來沒有任何人清楚闡釋的。這可以説是我在這次展會上最大的收穫之一。
計算機領域的進步和革命有很多,但人們可能更多關注到計算能力,芯片集成度等技術上的進步。但很多影響非常大的革命性進步表現在人機接口上。以下是計算機和網絡在過去幾十年革命性的人機接口進步。
圖形顯示器
鼠標
圖形用户接口GUI,視窗系統
編輯軟件的所見即所得
瀏覽器
門户網站
搜索網站
語音輸入和控制
智能手機APP桌面圖標.
…..
為什麼是這樣?因為人機接口直接影響人類使用計算機的方便性。越簡單方便的人機接口,就可以使越多非專業的人使用計算機。以上人機接口的進步極大地方便了人們對信息技術的使用。通用人工智能的最大價值,體現在它的另一個名稱叫“生成式人工智能”,它為人們使用信息技術提供了更為通用和簡潔的人機接口,使得人們可以用更為接近自然語言的方式與計算機進行文字、語音、圖像和視頻的交互。在過去,搜索網站的人機交互已經相當簡單,只要輸入關鍵詞,就可以獲得大量搜索出的鏈接。但這個還存在一定的問題,一是搜索是非常簡單和機械地只有在結果中存在輸入的關鍵詞,才會被搜索軟件選擇到。另一方面是它還需要人們在其中進行選擇。
大模型則提供了儘可能接近於人與人之間的交互方式。搜索的結果並不是直接對應是否存在關鍵詞,而是已經顯得是理解了輸入的問題語義,根據語義來生成對應的結果,很少再需要人們進行大量選擇了。ChatGPT這個名稱中的“Chat”就是聊天的意思,它已經把搜索過程變成了聊天。後面的“GPT”意思是英文“Generative Pre-Trained Transformer”的縮寫,意思是生成式預訓練Transformer模型。Transformer這個詞原意是“變換器”,“變形金剛”“變壓器”也是這個詞。但在人工智能領域極少人把這個詞翻譯成中文,一般都是説“Transformer模型”,有人提出把這個詞根據發音翻譯成“純思法模”。
所以,雖然人們經常談論的是用這個工具來寫報告、生成論文、圖片、視頻……但最關鍵的要點就在其名稱中的“聊天”與“生成”。至於具體實現的人工智能的功能是否為大模型來產生,其實並不重要。大模型本身也是一個特殊的深度學習算法,以往其他的深度學習算法產生的人工智能成果是可以與大模型結合起來應用的。
人機接口影響極大,但其市場空間卻遠沒有其在媒體上表現得那麼大。用它生成各種文字、圖片、視頻內容的水平確實已經非常高了,例如,用它生成的明星圖片,已經和拍攝的真人照片很難區分開了,並且品質很容易做到比實際照片更好。類似如下我寫本文時臨時用“豆包”簡單發個指令就生成的明星照片。
如果生成得更專業一些就如下圖。
引自公眾號 Al星顏繪的Al生成明星圖片
那麼,這類生成的結果或產品有什麼用呢?我們可以直接想到的一點是作為廣告用途,那我們先來看下這個市場有多大。根據市場監督局公佈的數據,2023 年全國從事廣告業務的事業單位和規模以上企業廣告業務收入為 13120.7 億元。這麼一看市場規模還是很大的,但是,其中廣告設計和製作環節全年實現收入分別為 246.6 億元和 231.1 億元,在整個廣告行業收入中的佔比約為 1.88%。要看生成式人工智能在廣告設計裏面再能佔多少,又得打一個很大的折扣。
當然,大模型的應用可以非常廣,但在其他絕大多數應用領域,大模型也就只是承擔一個比較方便的人機接口而已,這個環節很快就體現不出什麼直接的商業價值。就如同圖形用户接口,語音輸入等沒有直接的商業價值一樣。所以,大模型是小應用。
三、中模型大應用
將人工智能與各個行業相結合,是商業價值最高的。而這些領域的人工智能應用在過去早就存在,未必一定要採用大模型技術。或者,即使採用大模型技術,也未必完全是ChatGPT的模式。更重要的是,很可能不會採用英偉達的芯片,也可以説,只有不採用英偉達芯片的人工智能才是大應用。安防、通過人臉進行身份驗證、車牌識別停車場管理系統等,是我們日常生活中接觸到的最多人工智能的應用案例,這些應用早在大模型出現之前很早就有了。當然,採用了大模型以後,可以使這些傳統的人工智能應用獲得更好的擴展。
例如,以往車輛識別的數據結構化是預先設定了提取數據的要素,如車牌號、車輛顏色、型號等。但採用大模型,可以對獲得的視頻自然增加很多其他的結構化數據。例如識別出動物的種類(如貓、狗等)的毛色花紋,狀態,所處背景,是否在吃食……這樣用户可以通過輸入一定的問題,很容易從海量的數據庫中挑選出輸入要求的圖片或視頻來。例如輸入要求:找出正在吃貓糧的黃色貓,系統可以迅速把符合條件的圖片或視頻找出來。這個要求可能看起來沒那麼大用處,但如果是在街道上攝像頭的視頻數據,輸入這樣的要求:請找出某年月日上午某時間段範圍內經過某十字路口的白色奇瑞瑤光車型,系統就可以迅速把相應的視頻找出來。這就是極有價值的。
另外,採用大模型技術,可以使得技術水平不是那麼高的產品代理商也可以針對自己的特定應用來進行訓練,從而可以滿足其特定的應用。而所耗費的計算能力卻非常少,從不僅而成本很低,而且非常有利於針對各種特定的應用進行定製和優化。
這類應用在浙江宇視的產品系統中都已經非常成熟了。
以下是浙江宇視的各種行業大模型,也就是本文所稱的“中模型”。
四、小模型廣應用
以下是浙江宇視應用到家庭或非常狹窄場合的“小模型”。
這類小模型的人工智能算法因針對性極強,應用範圍及場景極為有限,因此所需要的訓練硬件性能要求非常小,它甚至可以把人工智能算法和應用都直接集成在攝像頭裏。這不僅成本極低,而且安裝部署非常簡單。
越是到終端,當然市場就越大越廣。因此,小模型會是廣應用。
也就是説,決定人工智能的真正未來命運和前途的關鍵,在於非英偉達芯片的應用領域,而不是媒體上熱炒的美國式人工智能概念。為什麼性能最強的英偉達芯片對應的人工智能領域難以獲得大的應用,原因在於其應用的產品目標永遠比英偉達芯片的性能更高遠,甚至於接近無限。
技術應用的成功與否,並不完全在於其技術能力是否最強,更重要的還在於其產品定義是否在現實可用的技術能力範圍之內。我在過去文章一再地強調過,技術的普遍規律是產品定義與技術能力相互的匹配。只有通過產品定義上的功能與性能簡化和約束,使其落在有限成本控制範圍內可用的硬件技術性能範圍之內,這樣的產品才有可能成功。如果技術能力最強,卻總是提出比其能力更高的產品定義,縱使擁有最強的硬件能力,也難以做出好的產品。
延伸閲讀:
資深IT人詳解什麼是“元宇宙”——細説歷史上那些“什麼都不是”的概念
中國科技企業如何避坑:十年7個技術方向,1/128,選擇題全對