ChatGPT之外,中文大模型開局即卷_風聞
镭射财经-立足数字化思维,深挖新商业故事。04-15 18:05
本文轉載自產業科技
大洋彼岸的AIGC熱浪襲來,國內資本和AI玩家燥熱一片。
相比多年以前的Alpha Go大戰世界圍棋冠軍,AI在消費互聯網席捲滲透,ChatGPT的出圈更能代表AI邁向縱深發展,標誌着人工智能大模型和超級應用起航的新節點。
由於中國在互聯網數據上具備優勢,AI場景開發及應用並不落後於歐美。與以往的copy模式不同,國內互聯網巨頭在面臨AIGC浪潮時,憑藉多年的人才和技術儲備,已經從跟隨的角色變為主動創新,甚至在中文語境中超越國際選手。
因此,一幅圍繞AIGC和AI大模型的內卷鏡像也在國內呈現。各家互聯網公司掌門人親自掛帥,你方唱罷我登場,都不願捨棄在OpenAI掀起的大模型風口中分一杯羹。
雲的時代,向來以快制勝,快不僅僅代表對新應用和新功能更加敏捷機動,更彰顯企業對市場趨勢的前瞻性佈局。大模型時代更甚,先知先覺者更快一步,後來者便是跟隨。
一如百度和阿里。
3月16日,百度發佈文心一言,打響中文大模型第一槍;二十餘天后,阿里董事局主席張勇才在阿里雲峯會上正式發佈通義千問。百度文心大模型早在2019年就已推出,而阿里通義大模型是阿里達摩院於2022年9月發佈。
不只是產品層面的落後,在AI戰略層面,阿里同樣學步百度。通義千問發佈後,阿里首提“雲智一體”理念,並將其作為阿里雲集團下一個戰略方向。其實,“雲智一體”並非新概念。
三年前,百度智能雲在戰略發佈中提出了“雲智一體”理念,通過雲計算和人工智能融合創新,把算力、框架、模型,場景應用打造成標準化產品,進而降低企業獲取和使用人工智能的門檻。
阿里乃至更多雲計算企業,此時將目光投向“雲智一體”,做百度的追隨者,恰恰證明AI應用能力是雲計算產業基礎設施成熟後的核心能力。這種能力更在於“智”的水平,即在智能基礎設施之上的通用型AI產品能力。
AIGC開局即卷,抄作業的依然會有。但AI賽道和雲智一體本是一場科技馬拉松,比拼的是投入和耐力,只有軟硬底子皆強,才能真正成為產業所需的AI內核。
從大廠捲起
若將AIGC的主體分類,可大致分為ChatGPT和其他,其中ChatGPT背後站着芯片巨頭英偉達和國際大廠微軟,與其他AIGC玩家沒有可比性。但以大廠視角來看,確有先後優劣之分。
國內,百度在ChatGPT之後,率先推出了自己的AIGC產品文心一言。在市場看來,文心一言問世的意義要比和ChatGPT作比較大得多,雖然尚存差距和不足,但它打開了與百度智能雲聯動的想象空間,並向外界展示中國科技和世界同步的能力。
一個細節是,李彥宏在文心一言發佈會上至少説了三遍“文心一言還不完美”。在他看來,創業公司完全不用擔心市場是不是足夠大,只有出來之後才有機會更快地去迭代,去提升。
對於如何定位文心一言,李彥宏稱文心一言是全世界唯一一個由大廠推出的生成式AI應用。的確,彼時微軟只是調用ChatGPT接口,國際大廠谷歌、Facebook也沒推出成型的類ChatGPT產品,而亞馬遜近期才發佈自己的大語言模型。
國內的玩家更不用説,自百度之後紛紛學步,先是阿里悄悄啓動企業用户定向內測,後是360、商湯科技、騰訊、京東、華為、科大訊飛磨刀霍霍。
既是大廠自己推出的AIGC,與ChatGPT有何不同呢?從基因來看,大廠基於自身對業務的理解和技術模型沉澱,在AIGC價值創新層面,更注重場景穿透和服務能力,也就是各位掌門人口中的“產業能力”。
更細微的視角是,文心一言由中文大模型生成,具備獨特的中文語義理解能力。根據使用者反饋,文心一言獨特的中文語義理解,相比ChatGPT等國際產品,更適配中國用户。如在語義問題表達,分析和答案歸集層面,匹配度更高。
同處中文大模型賽道,阿里的通義千問與百度的文心一言誰更強,也成為市場關注的焦點。首先在功能層面,文心一言有文學創作、商業文案創作、數理推算、中文理解、多模態生成能力等,而通義千問的功能有創作、回答問題、撰寫代碼、表達觀點等。
橫向比較,文心一言的功能更加豐富。儘管通義千問還搭配效率類、生活類、娛樂類的定製模塊,但相比之下,文心一言的場景擴展能力更突出。
文心一言還與百度智能雲聯動,所推出的企業服務板塊涵蓋企業辦公場景、金融服務場景、政務服務場景、商旅服務場景及電商直播場景等。場景內測顯示,文心一言企業服務功能能有效提升產業端服務效率,強化服務體驗。
其次,評判大模型的優劣根本落腳點在於服務匹配的精準度和邏輯分析的嚴謹性。以此來看,文心一言也強於通義千問。
據媒體公開測評,被問及“小明的父母生了五個孩子,前四個孩子分別叫大牛、二牛、三牛和四牛,第五個孩子叫什麼名字?”文心一言回答第五個孩子叫小明,而通義千問則回答第五個孩子叫小牛。
在創作能力上,讓文心一言和通義千問為紅樓夢前八十回續寫結局,文心一言給出了一個想象的可能結局,把賈寶玉和林黛玉愛情故事變成了一個充滿希望和勇氣的故事。而通義千問直接表示無法續寫結局。
更驚訝的是,問及通義千問何時誕生時,通義千問竟然給出了 “2023年9月2日正式誕生”的答案。這些問題並非時事熱點,剔除了訓練參數滯後的限制,但通義千問的表現讓人失望。
差異的根源在模型參數和複雜度上。對於大模型而言,模型參數規模越大,模型結構設計越複雜,所承載的邏輯分析預測能力越強,給出的答案自然更精準。據瞭解,在GPT-3階段,OpenAI為了使模型性能更接近人類,就使用了45TB的數據和近1萬億個單詞對其進行訓練,大約是1351萬本牛津詞典。
百度文心一言大模型起步較早,2019年已經推出文心大模型ERNIE1.0版本,2021年基於文心大模型發佈全球首個百億參數的對話大模型PLATO-XL。如今,百度推出更新的ERNIE3.0 Zeus,已經擁有千億級參數。
數據顯示,文心一言的訓練數據包括萬億級網頁數據、數十億搜索數據和圖片數據、百億級的語音日均調用數據、超5000億事實的知識圖譜。萬億級數據加上海量用户頻繁調用使用,文心一言的學習能力進一步強化,模型泛化和遷移能力決定了其在中文語言處理上更具優勢。
數據背後,終極考驗AI大模型的底層能力是算法和算力。如果説數據和參數是大模型搭建的基礎,那麼算法和算力決定了大模型性能有多強,能走多遠,這也會繼續拉大領跑者與學步者的差距,讓GPT玩家們捲到天際。
這一切都是被逼的。
大模型的終極角逐
AI大模型需要在海量數據的基礎上,通過AI深度學習算法,訓練出深度神經網絡模型。從模型訓練到模型優化再到應用擴展,都需要強大的算法和算力支撐。
ChatGPT觸動AIGC產業爆發,是AI領域數據、算法、算力多年沉澱精進的結果。AIGC之所以能夠站上潮頭,算法的突破是第一步。
歷經近十年迭代,AIGC的算法從第一代生成式對抗網絡GAN過渡到深度學習模型CLIP、神經網絡架構Transforme,打破了傳統AI模型在文本圖片關聯、自然語言語義分析處理上的障礙。而後,Diffusion擴散模型向語音、圖畫、視頻等領域延伸,進一步強化AI的模仿和創造力。ChatGPT當前採用的就是Transformer算法架構。
於國內AI大模型玩家而言,得益於基礎數據和訓練參數優勢,AI應用探索速度更快,場景滲透更深,互聯網巨頭已經掌握了前沿的算法框架,算法支撐尚可。
如文心大模型在既有的神經網絡模型架構之上,還加入了知識圖譜,讓模型能夠通過先驗知識和歷史經驗理解語義,更加精準地預測提問者的期待和目的。這在中文語境中優勢更加明顯。
算法之外,AI大模型最短缺的是算力。算力是提升模型性能的基本支撐,不只是AIGC領域,對於整個人工智能產業、產業數字化來講都至關重要,以至於有不少科學家呼籲算力與電氣化同等重要。
黃仁勳既然能喊出ChatGPT是AI的iPhone時刻,ChatGPT背後的英偉達高端芯片支撐是關鍵。即便有芯片巨頭撐腰,ChatGPT發佈數月版本幾經迭代,仍然存在算力缺口,如ChatGPT付費版ChatGPT Plus暫停付費,OpenAI給出的解釋是需求量過大。
AIGC的算力缺口到底有多大?當ChatGPT激起分佈式大規模訓練浪潮後,摩爾定律限制被打破,算力需求被提升至指數級增長。券商報告顯示,訓練AI大模型對算力成本消耗量巨大。
“GPT-3訓練一次成本約140萬美元,對於一些更大的LLM(大型語言模型),訓練成本介於200萬美元至1200萬美元之間。以ChatGPT在1月的獨立訪客平均數1300萬計算,其對應芯片需求為3萬多片英偉達A100 GPU,初始投入成本約為8億美元,每日電費在5萬美元左右。”
隨着ChatGPT的版本迭代,GPT-4及4+以上版本對算力消耗顯著增加,輸入成本增加了50%以上,輸出成本增加200%以上。因此,為了應付成本和算力缺口,ChatGPT不得不降低用户訪問次數,乃至暫停測試項目。
ChatGPT帶來的算力恐慌也在國內顯現。一方面受地緣政治影響,美國禁止高端芯片設備和人工智能芯片對華出口,直接影響英偉達和AMD等芯片廠商對國內高端芯片需求的供應。即使供應不受限,進口芯片的成本、個性化性能需求和信創安全性也是壓力。
另一方面,IDC預測,未來三年新生產的數據量將超過過去三十年綜合,未來五年國內智算規模的複合增長率超50%。從電商到直播,從金融到政務,從企服到醫療等,數字化轉型提速對算力的需求也會呈現爆發式增長,雲計算企業軍備競賽空前緊張。
可以説,目前AI算力缺口根本無法統計,從二級市場中芯片算力概念領漲,也能看出國內算力的緊缺。隨着AIGC市場需求上升,比拼算力是大模型企業突圍的立足之本,而算力主要技術載體芯片又是關鍵中的關鍵。
芯片的製造過程非常複雜,核心分為設計、製造過程,其中設計包含EDA、芯片IP授權、FPGA(萬能芯片),製造技術要求高、流程多,往往以全球化、產業鏈形式呈現。
具體來看,芯片製造包含晶圓、光刻、離子注入、刻蝕、切割封裝、量測等環節,每個環節涉及到不同設備,而且不僅技術要求高,投入成本也非常高。以光刻為例,目前國內直接做光刻機的公司幾乎沒有,一台光刻機需要10萬個以上的零部件,價格在10億元以上。
市場認為,一萬枚英偉達A100高端芯片是做好AI大模型的算力門檻,但缺芯恰是中國大模型企業普遍面臨的難題。
先發者覺醒
AIGC產品能力的優劣,源於大模型企業在核心技術儲備上的強弱。從大廠的AI技術基座來看,領跑者的飛輪效應和非線性增長能力凸顯,破局之勢出現。
以中文大模型百度為例,文心一言背後,可見崑崙芯高端芯片、飛漿深度學習框架、文心預訓練大模型技術基座。
終極算力PK層面,百度芯片自研起步於2010年,是國內最早佈局AI加速領域的芯片企業。彼時造芯還屬於百度的高度保密項目,起初從FPGA架構研發AI芯片,起點較高,雖然沒有完全自研,但對芯片的技術探索領先其他大廠。
2018年7月,百度發佈自研芯片“崑崙芯”,2020年量產並應用於AIGC、搜索推薦、自動駕駛、智能終端等板塊。
2021年,崑崙芯宣佈獨立運營,百度芯片首席架構師歐陽劍出任CEO。崑崙芯完成獨立融資後,首輪估值達130億元,中國國產芯片超級獨角獸自此誕生。
作為大廠造芯項目,百度芯片的算力邏輯始於複雜場景的處理運算需求。上至百度智能雲、無人駕駛,下到搜索基本盤和小度智能終端,百度自研芯片都已經開始跑起來。
支撐文心大模型的崑崙芯在綜合算力和成本方面,甚至優於芯片廠商的高端芯片。儘管文心一言相較ChatGPT發佈較晚,訓練量和模型優化尚且不足,但自主可控的算力資源為模型迭代打下基礎。
公開資料顯示,崑崙芯2代AI芯片採取7nm工藝打造,這種技術規格在業界處於較高水平,單位體積所能承載的集體管更多,性能更強。崑崙芯的算力可以達到128 TFLOPS@FP16。
為了適應雲智一體的算力需求,百度近年來還加緊佈局雲計算中心,目前擁有陽泉、徐水、定興三個雲計算中心,算力規模在國內大廠前列。
2023年3月,百度完成了陽泉智算中心升級,算力規模達4 EFLOPS,是目前亞洲最大單體智算中心。對比國內整體算力規模,2022年國內服務器規模在2000萬台左右,算力規模超150 EFLOPS。
充足的算力為AI大模型訓練及產業增智開闢空間,對於百度、阿里,乃至AI後發選手騰訊、京東等大廠而言,面向產業的AIGC大模型輸出才是最大的蛋糕。正如阿里張勇所言,面向智能化時代,所有行業都值得重新做一遍。
大模型本為產業而生,是雲智一體的產物。從產品功能擴展看,大模型採取了更為原始和非標的數據,基於深度學習算法組織自監督學習,在海量數據訓練的基礎上,實現智能表達和運算推測。
AI大模型技術應用非常廣,包括語音技術、圖像識別處理、自然語言處理及大數據分析預測等。在通用AI大模型的基礎上,產業場景開發者只需要根據場景需求微調模型,再採用少量數據進行二次訓練,就能滿足垂直場景下的AI能力調用。
現階段,具備大模型能力的大廠都已經開始藉助大模型的易延展能力,把AIGC接入到產業。如微軟將GPT-4整合到旗下的Bing搜索、office辦公套件和聊天產品中;阿里計劃將旗下所有產品都接入通義千問;百度除了佈局百度系產品,把文心一言的戰略重點落向了企業服務,強化雲智一體的智能化水平,面向多場景輸出大模型能力。
目前AI大模型更多集中在C端能力上的優化,未來大模型+產業模型的雙模型驅動,會加速向產業數字化滲透,企業經營效率和生產力解放也會達到質的飛躍。
這一變化,領跑者最先看到。