文心一言與百度的新搜索時代_風聞

阿尔法工场-阿尔法工场研究院官方账号-中国上市公司研究平台02-23 11:18

2023-02-23

未來已來，而文心一言，早已隨百度等待多時。

在短短的兩三個月時間裏，曾經名不見經傳的Open AI，和它旗下的語言類深度學習大模型ChatGPT，已經在大洋彼岸掀起了滔天巨浪。

微軟、谷歌等巨頭紛紛入局，或是重金下注、或是倉促應戰，幾乎在一夜之間，這股AI新勢力，幾乎讓硅谷所有的巨頭都捲入其中。

而在國內，雖然媒體和網絡上的討論熱度同樣很高，但面對這一波AI浪潮席捲而來，國內大多數互聯網公司，卻並沒有如往常那般迅速做出反應。

其背後的原因倒不復雜：像這種基於深度學習的大語言模型，需要鉅額的投入和長期不懈的技術積累，絕非短時間內可以拿出成果，即使認識到了其重要性，從現在開始組建團隊、投入資金，要等到真正有可展示的成果上線，那也是很久之後的事情了。

在這樣一種略顯尷尬的局面下，百度（BIDU.US; 09888.HK）旗下基於生成式AI的大語言類模型——文心一言，就擔負起了向全行業、甚至全世界展示中國AI大模型研發能力的重要使命，而文心一言的橫空出世，或許意味着屬於百度的一個全新時代正在拉開帷幕。

01 深度學習，百度從未缺席

與許多人的陳舊印象不同，對於基於深度學習的AI技術，百度的熱情由來已久。

早在2010年初，百度就在集團內部對於NLP（自然語言處理）的發展方向進行了全面的梳理和規劃。

同年，百度自然語言處理部正式成立，並不斷在語音、圖片等技術上佈局，敲定了在知識圖譜技術上長期投入的戰略。

2019年3月，百度提出知識增強的語義理解框架ERNIE，在深度學習的基礎上融入知識，同時具備持續學習能力，藉此一舉登頂全球權威數據集GLUE榜單，全世界首次突破90分大關，刷新了榜單歷史。

2021年9月，百度發佈了PLATO-XL，這是全球首個百億參數的對話大模型，一舉超過 Facebook Blender、谷歌 Meena和微軟 DialoGPT，成為全球首個百億參數中英文對話預訓練生成模型。

自然語言處理（NLP, Natural Language Processing）被稱為“人工智能皇冠上的明珠”，誰能實現自然語言處理技術的突破，誰就能在AI領域一騎絕塵。而在NLP領域，毫不誇張的説，中國絕對沒有一家公司的水平接近百度，也沒有任何一家公司有能力藉助NLP挑戰百度。

可以説，相比那些在ChatGPT爆發之後才後知後覺的同行，百度從一開始就走在了語言類大模型的最前列，與大洋彼岸的競爭對手始終處於交替領先的同一個水平線上。

這也就保證了一旦市場需求走向成熟，百度可以在第一時間就拿出文心一言——這個在全球中文語言對話類模型當中首屈一指的存在。而任何其他的競爭對手，都只能從零開始做起。

02 底層自研，百度的獨門絕技

進入人工智能時代之後，全球IT技術的技術棧發生了根本性的變化。

過去的體系基本上可以分為三層：芯片層、操作系統層和應用層。而像英特爾、高通、微軟、谷歌這些公司，在不同的層級上分別佔據了領導位置，從而讓整個體系成為自己的搖錢樹。

而在人工智能時代，全新的體系則可以分為四層：芯片層、框架層、模型層和應用層。憑藉着自己強大的研發實力，百度在其中的多個層級都進行了佈局：從高端芯片崑崙芯，到飛槳深度學習框架，再到文心預訓練大模型，每一個層面上，百度都有自己的關鍵技術，這種從底層一直延展到應用層的深度和廣度，是國內其他廠商完全無法望其項背的。

正如中金互聯網行業首席分析師白洋所説：“AI的三要素包括算力、算法和數據，我們認為百度在這三項上擁有領先優勢。百度在芯片層、框架層、模型層和應用層進行全方位佈局。”

在這樣一種強大的技術基礎支持之下，百度始終與國際上最先進的競爭對手處於同一個Level上，以文心大模型為例，和Open AI的GPT模型類似，百度的文心大模型在2019年就已經推出，並且已經迭代了多代。

從單一的自然語言理解延申到多模態，包括視覺、文檔、文圖、語音等多模態多功能，因此“文心一言”所基於的ERNIE系列模型也已經具備較強泛化能力和性能。

以最新發布的ERNIE 3.0 Zeus為例，該模型迭代於ERNIE 3.0，擁有千億級參數。其已經具備智能創作等各類自然語言理解和生成任務，且公開數據集上小樣本學習、理解和生成任務效果皆好於業界其他模型。

03 商業模式，百度天生佔據C位

和大洋彼岸被微軟Bing+ChatGPT組合拳的進攻逼得有些狼狽的谷歌不同，百度在中文搜索引擎上的霸主地位，至今沒有任何人可以挑戰與撼動，而份額領先的百度，偏偏又是在AI大模型領域深耕最久的國內廠商。

如果説，ChatGPT成為了微軟攻向谷歌腹地的攻城錘，那麼，文心一言就是百度進一步強化搜索及信息流市場優勢的銅牆鐵壁。

有了AI大模型的加持，百度的護城河得到了進一步的拓寬和加深，這種對現有業務的強大保護能力，反過來又讓百度能更加從容的為AI的發展繼續加碼。

實際上，語言類大模型和搜索引擎幾乎是天生的搭檔。Bing的測試表明，當新一代搜索引擎引入對話模式之後，用户搜索信息的體驗得到了本質性的提高。

而對於百度來説，有了文心一言的加持，百度幾乎可以肯定會成為中文互聯網上信息最豐富、答案最準確、概括最全面的對話式搜索引擎服務商。而這種強勢地位反過來進一步提升了百度的流量變現能力，讓百度能夠比競爭對手在單次搜索請求當中獲得更高的平均收益。

另一方面，對於百家號、百度知道、百度百科、貼吧等自有流量來説，文心一言的出現也讓這些業務的運營效率得到了進一步釋放，知道和百科這些應用可以做到真正意義上的千人千面，以及對現有內容的實時更新，相較之目前依賴人工的方式，效率有望獲得巨大的提升。

04 手握數據，百度坐擁另類金礦

大模型的迭代，離不開海量訓練數據的輸入。以ChatGPT為例，其模型訓練使用主要來自互聯網的文本數據庫，包括從網絡文本、維基百科、文章中獲得高達 570GB的數據，在海量數據投餵的基礎上，大模型才能真正發揮自己的威力。

而在中文互聯網上，誰擁有全世界規模最大的文本數據庫？答案顯而易見。毫無疑問，作為搜索引擎的百度，天生就坐擁着一座巨大的金礦。

對於搜索引擎來説，海量文本數據的收集、處理、分類，這原本就是核心搜索業務的題中應有之義。而這樣一種先天優勢，恰好就變成了訓練語言類大模型的良好基礎所在。

在中文互聯網上，百度要比任何競爭對手都擁有更為豐富和全面的訓練數據，因此，在其他技術條件相同的情況下，百度的文心一言就像是含着金鑰匙的豪門後代，可以説是從一開始就贏在了起跑線上。

05 模型訓練，百度算力儲備雄厚

眾所周知，新一代大模型的訓練環節需要巨量的算力投入。全球各大AI公司一個主要的成本支出項目就是算力的採購費用。

而百度，恰恰是國內領先的智能雲服務提供商。百度擁有多個雲計算可用區、龐大的超算集羣，奠定了大模型訓練的基礎設施。

目前百度旗下有陽泉、徐水、定興三個雲計算中心，其中，陽泉智能雲數據中心僅一期就可承載16萬台服務器，預計整個百度陽泉雲計算中心可承載24萬台服務器。百度自研AI芯片“崑崙”已在多場景實際部署幾萬片，在公司搜索業務中也已形成較強的工程化實踐。

在雲端的業務負載沒有滿載的情況下，所有冗餘出來的算力都可以作為大模型的訓練算力來源，這就確保了百度可以用更低的成本來進行更多輪次的模型訓練，卻不必單獨承擔高昂的軟硬件成本。

綜上所述，百度智能雲可以給文心一言大模型應用提供高併發、高彈性、高精度等不同計算需求，以此來保證“文心一言”的底層算力需求。這也是其他競爭對手所難以仿效的一大優勢所在。

06 總結：文心一言，無懼任何競爭對手

從本質上説，近期被捧上神壇的ChatGPT，並不是什麼革命性的技術。

作為OpenAI基於2020年發佈的GPT-3.5模型微調後開發出的對話機器人，嚴格來説，ChatGPT並未實現底層模型的顯著突破，它只不過是巧妙地採用了理解、生成和交互相結合的方式，基於人類反饋進行強化訓練，在體驗上帶給人智能的感覺。

而在百度CEO李彥宏看來，問題的關鍵，是如何把技術做成人人需要的產品，讓人們真正能夠從中受益。而不是單純的在媒體和網絡上製造話題和熱度：

“……怎麼把這麼酷的技術，變成人人需要的產品，讓每天有幾億人從中受益？怎麼賦能千行百業，讓他們的生產效率大幅度地提升？這一步才是最難的，也是最偉大、最能夠產生影響力的。”

因此，相比ChatGPT，文心一言在滿足用户的真實需求方面走得更遠：

基於搜索在真實數據和用户需求理解方面的積累，文心一言能夠進一步提升結果的時效性和準確性，並基於文心大模型的知識增強，提供多輪次的推理對話；此外，文心大模型是本土化的AI模型，具備對中文、甚至中國文化的更深理解，這也就意味着文心一言會更適合中文和中國市場。

從目前部分用户的內測反饋來看，相較之ChatGPT，文心一言在某些局部場景，完全可以實現對話質量上的超越，而在其他方面，至少也能做到和競品旗鼓相當。

對於百度來説，文心一言的推出，是重新確立自己核心技術驅動的發展模式的一次里程碑式的事件，也是百度在即將到來的AI時代的全新發展階段的序章。

未來已來，而文心一言，早已隨百度等待多時。