文心一言與百度的新搜索時代_風聞
阿尔法工场-阿尔法工场研究院官方账号-中国上市公司研究平台02-23 11:18
未來已來,而文心一言,早已隨百度等待多時。
在短短的兩三個月時間裏,曾經名不見經傳的Open AI,和它旗下的語言類深度學習大模型ChatGPT,已經在大洋彼岸掀起了滔天巨浪。
微軟、谷歌等巨頭紛紛入局,或是重金下注、或是倉促應戰,幾乎在一夜之間,這股AI新勢力,幾乎讓硅谷所有的巨頭都捲入其中。
而在國內,雖然媒體和網絡上的討論熱度同樣很高,但面對這一波AI浪潮席捲而來,國內大多數互聯網公司,卻並沒有如往常那般迅速做出反應。
其背後的原因倒不復雜:像這種基於深度學習的大語言模型,需要鉅額的投入和長期不懈的技術積累,絕非短時間內可以拿出成果,即使認識到了其重要性,從現在開始組建團隊、投入資金,要等到真正有可展示的成果上線,那也是很久之後的事情了。
在這樣一種略顯尷尬的局面下,百度(BIDU.US; 09888.HK)旗下基於生成式AI的大語言類模型——文心一言,就擔負起了向全行業、甚至全世界展示中國AI大模型研發能力的重要使命,而文心一言的橫空出世,或許意味着屬於百度的一個全新時代正在拉開帷幕。
01 深度學習,百度從未缺席
與許多人的陳舊印象不同,對於基於深度學習的AI技術,百度的熱情由來已久。
早在2010年初,百度就在集團內部對於NLP(自然語言處理)的發展方向進行了全面的梳理和規劃。
同年,百度自然語言處理部正式成立,並不斷在語音、圖片等技術上佈局,敲定了在知識圖譜技術上長期投入的戰略。
2019年3月,百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,藉此一舉登頂全球權威數據集GLUE榜單,全世界首次突破90分大關,刷新了榜單歷史。
2021年9月,百度發佈了PLATO-XL,這是全球首個百億參數的對話大模型,一舉超過 Facebook Blender、谷歌 Meena和微軟 DialoGPT,成為全球首個百億參數中英文對話預訓練生成模型。
自然語言處理(NLP, Natural Language Processing)被稱為“人工智能皇冠上的明珠”,誰能實現自然語言處理技術的突破,誰就能在AI領域一騎絕塵。而在NLP領域,毫不誇張的説,中國絕對沒有一家公司的水平接近百度,也沒有任何一家公司有能力藉助NLP挑戰百度。
可以説,相比那些在ChatGPT爆發之後才後知後覺的同行,百度從一開始就走在了語言類大模型的最前列,與大洋彼岸的競爭對手始終處於交替領先的同一個水平線上。
這也就保證了一旦市場需求走向成熟,百度可以在第一時間就拿出文心一言——這個在全球中文語言對話類模型當中首屈一指的存在。而任何其他的競爭對手,都只能從零開始做起。
02 底層自研,百度的獨門絕技
進入人工智能時代之後,全球IT技術的技術棧發生了根本性的變化。
過去的體系基本上可以分為三層:芯片層、操作系統層和應用層。而像英特爾、高通、微軟、谷歌這些公司,在不同的層級上分別佔據了領導位置,從而讓整個體系成為自己的搖錢樹。
而在人工智能時代,全新的體系則可以分為四層:芯片層、框架層、模型層和應用層。憑藉着自己強大的研發實力,百度在其中的多個層級都進行了佈局:從高端芯片崑崙芯,到飛槳深度學習框架,再到文心預訓練大模型,每一個層面上,百度都有自己的關鍵技術,這種從底層一直延展到應用層的深度和廣度,是國內其他廠商完全無法望其項背的。
正如中金互聯網行業首席分析師白洋所説:“AI的三要素包括算力、算法和數據,我們認為百度在這三項上擁有領先優勢。百度在芯片層、框架層、模型層和應用層進行全方位佈局。”
在這樣一種強大的技術基礎支持之下,百度始終與國際上最先進的競爭對手處於同一個Level上,以文心大模型為例,和Open AI的GPT模型類似,百度的文心大模型在2019年就已經推出,並且已經迭代了多代。
從單一的自然語言理解延申到多模態,包括視覺、文檔、文圖、語音等多模態多功能,因此“文心一言”所基於的ERNIE系列模型也已經具備較強泛化能力和性能。
以最新發布的ERNIE 3.0 Zeus為例,該模型迭代於ERNIE 3.0,擁有千億級參數。其已經具備智能創作等各類自然語言理解和生成任務,且公開數據集上小樣本學習、理解和生成任務效果皆好於業界其他模型。
03 商業模式,百度天生佔據C位
和大洋彼岸被微軟Bing+ChatGPT組合拳的進攻逼得有些狼狽的谷歌不同,百度在中文搜索引擎上的霸主地位,至今沒有任何人可以挑戰與撼動,而份額領先的百度,偏偏又是在AI大模型領域深耕最久的國內廠商。
如果説,ChatGPT成為了微軟攻向谷歌腹地的攻城錘,那麼,文心一言就是百度進一步強化搜索及信息流市場優勢的銅牆鐵壁。
有了AI大模型的加持,百度的護城河得到了進一步的拓寬和加深,這種對現有業務的強大保護能力,反過來又讓百度能更加從容的為AI的發展繼續加碼。
實際上,語言類大模型和搜索引擎幾乎是天生的搭檔。Bing的測試表明,當新一代搜索引擎引入對話模式之後,用户搜索信息的體驗得到了本質性的提高。
而對於百度來説,有了文心一言的加持,百度幾乎可以肯定會成為中文互聯網上信息最豐富、答案最準確、概括最全面的對話式搜索引擎服務商。而這種強勢地位反過來進一步提升了百度的流量變現能力,讓百度能夠比競爭對手在單次搜索請求當中獲得更高的平均收益。
另一方面,對於百家號、百度知道、百度百科、貼吧等自有流量來説,文心一言的出現也讓這些業務的運營效率得到了進一步釋放,知道和百科這些應用可以做到真正意義上的千人千面,以及對現有內容的實時更新,相較之目前依賴人工的方式,效率有望獲得巨大的提升。
04 手握數據,百度坐擁另類金礦
大模型的迭代,離不開海量訓練數據的輸入。以ChatGPT為例,其模型訓練使用主要來自互聯網的文本數據庫,包括從網絡文本、維基百科、文章中獲得高達 570GB的數據,在海量數據投餵的基礎上,大模型才能真正發揮自己的威力。
而在中文互聯網上,誰擁有全世界規模最大的文本數據庫?答案顯而易見。毫無疑問,作為搜索引擎的百度,天生就坐擁着一座巨大的金礦。
對於搜索引擎來説,海量文本數據的收集、處理、分類,這原本就是核心搜索業務的題中應有之義。而這樣一種先天優勢,恰好就變成了訓練語言類大模型的良好基礎所在。
在中文互聯網上,百度要比任何競爭對手都擁有更為豐富和全面的訓練數據,因此,在其他技術條件相同的情況下,百度的文心一言就像是含着金鑰匙的豪門後代,可以説是從一開始就贏在了起跑線上。
05 模型訓練,百度算力儲備雄厚
眾所周知,新一代大模型的訓練環節需要巨量的算力投入。全球各大AI公司一個主要的成本支出項目就是算力的採購費用。
而百度,恰恰是國內領先的智能雲服務提供商。百度擁有多個雲計算可用區、龐大的超算集羣,奠定了大模型訓練的基礎設施。
目前百度旗下有陽泉、徐水、定興三個雲計算中心,其中,陽泉智能雲數據中心僅一期就可承載16萬台服務器,預計整個百度陽泉雲計算中心可承載24萬台服務器。百度自研AI芯片“崑崙”已在多場景實際部署幾萬片,在公司搜索業務中也已形成較強的工程化實踐。
在雲端的業務負載沒有滿載的情況下,所有冗餘出來的算力都可以作為大模型的訓練算力來源,這就確保了百度可以用更低的成本來進行更多輪次的模型訓練,卻不必單獨承擔高昂的軟硬件成本。
綜上所述,百度智能雲可以給文心一言大模型應用提供高併發、高彈性、高精度等不同計算需求,以此來保證“文心一言”的底層算力需求。這也是其他競爭對手所難以仿效的一大優勢所在。
06 總結:文心一言,無懼任何競爭對手
從本質上説,近期被捧上神壇的ChatGPT,並不是什麼革命性的技術。
作為OpenAI基於2020年發佈的GPT-3.5模型微調後開發出的對話機器人,嚴格來説,ChatGPT並未實現底層模型的顯著突破,它只不過是巧妙地採用了理解、生成和交互相結合的方式,基於人類反饋進行強化訓練,在體驗上帶給人智能的感覺。
而在百度CEO李彥宏看來,問題的關鍵,是如何把技術做成人人需要的產品,讓人們真正能夠從中受益。而不是單純的在媒體和網絡上製造話題和熱度:
“……怎麼把這麼酷的技術,變成人人需要的產品,讓每天有幾億人從中受益?怎麼賦能千行百業,讓他們的生產效率大幅度地提升?這一步才是最難的,也是最偉大、最能夠產生影響力的。”
因此,相比ChatGPT,文心一言在滿足用户的真實需求方面走得更遠:
基於搜索在真實數據和用户需求理解方面的積累,文心一言能夠進一步提升結果的時效性和準確性,並基於文心大模型的知識增強,提供多輪次的推理對話;此外,文心大模型是本土化的AI模型,具備對中文、甚至中國文化的更深理解,這也就意味着文心一言會更適合中文和中國市場。
從目前部分用户的內測反饋來看,相較之ChatGPT,文心一言在某些局部場景,完全可以實現對話質量上的超越,而在其他方面,至少也能做到和競品旗鼓相當。
對於百度來説,文心一言的推出,是重新確立自己核心技術驅動的發展模式的一次里程碑式的事件,也是百度在即將到來的AI時代的全新發展階段的序章。
未來已來,而文心一言,早已隨百度等待多時。