肖仰華:國內大模型真正的短板並非數據和算力,而在"煉製"工藝
周毅是故意的还是不小心?

【文/觀察者網 周毅 編輯 張廣凱】
微軟再一次拋出“王炸”。
5月23日,在西雅圖的微軟Build 2023開發者大會上,微軟CEO納德拉正式宣佈,正在為Windows 11添加人工智能助手“Windows Copilot”,用户可以在Windows系統中使用聊天機器人。
在ChatGPT領域,中國此前已有阿里通義千問、百度文心一言、京東靈犀等多款產品。
在AIGC的新風口下,如何看待中國企業的挑戰和機遇?
5月22日,2023數字經濟(東湖)論壇在武漢舉辦。在論壇上,復旦大學教授、上海市數據科學重點實驗室主任肖仰華對觀察者網表示,與國際同行相比,模型、數據和算力並不是中國最大的劣勢,真正的短板在於對大模型"煉製"工藝的掌握,包括數據配方、數據清洗和參數設置等等。
肖仰華表示,大模型"煉製"工藝從根本上決定了大模型的效果。但是和OpenAI等企業相比,我們仍有一定的時間差距。但是中國也有自己的優勢,比如舉國體制。我們可以成立產業聯盟多線並進,縮短試錯週期。

圖源2023數字經濟(東湖)論壇
肖仰華還提醒,我們不能因為炒作ChatGPT一個熱點,而忽略了具身智能等其他賽道。
值得重視的短板:先進工藝
在肖仰華看來,以ChatGPT為代表的生成式人工智能技術(AIGC),將成為推動我國數字經濟進步,實現高質量發展的重要引擎。在ChatGPT之前,人工智能處於不成熟的產業階段;ChatGPT的出現將人工智能帶入快速發展、快速變現的重工業發展階段。
但在類ChatGPT等大模型領域,中國尚處於起步階段,需要進一步規劃和統籌。
肖仰華認為,大模型產業發展的取決於數個因素。
首先是模型。模型好比功夫中的“內功”,模型越大,潛力越強;其二是算力,這是大模型的核心競爭力,大模型競爭歸根結底是算力的競爭;其三是數據。只有高質量的數據,才能餵養出高水平的大模型。不過,它們都不是中國大模型產業的真正短板所在。

圖源微軟
“我國的大模型產業,在數據上有優勢,在算力上有基礎,模型本身也不存在什麼秘密,我們真正缺的是先進工藝。”肖仰華説。
他解釋道,“煉製”大模型的工藝過程至關重要,它包括數據配方、數據清洗、參數設置、流程設計和質量控制等等。它從根本上決定了大模型的效果,是大模型產業發展的重要因素。當前我國大模型產業發展缺乏先進工藝過程,這是短期之內難以跟上的,需要付出巨大代價進行摸索。
數據配方,指的是根據模型的學習目標,確定不同領域、不同類型、不同模態數據的配比;數據清洗,指的是對原始語料進行去噪、去重、過濾、規範化等操作,提高語料一致性、多樣性與完整性。
所謂的參數設置,是根據模型的架構和規模,選擇合適的超參數,如學習率、批次大小、優化器、激活函數等,這些選擇將影響模型訓練的效率和效果。
流程設計,是根據模型的訓練目標和資源限制,設計各相關組件之間的流程排布、目標設定、訓練策略等,提高模型的泛化能力和適應性。
質量控制,指的是對模型的訓練過程和結果進行監控和評估,通過準確率、困惑度等關鍵指標監測,通過對比不同模型或版本的表現,以保障大模型訓練的質量和穩定性。
肖仰華表示,上述的每一個具體模塊,國內其實都知道怎麼做,但是將它們整合在一起,總體效果和國外是存在差距的。“不是能做還是不能做的問題,而是做出來的效果是70分與100分的差別。”肖仰華表示,我們要趕上最後這幾十分,要不斷試錯、評測和改進。
肖仰華對觀察者網表示,先進工藝的掌握需要試錯,需要時間積累。OpenAI成立於2015年,在2018年投入大模型研發,到今年整整用了5年時間,他們花了很多時間去試錯和摸索。即使現在很多中國企業在努力追趕,但是這個“時間差”是一朝一夕難以趕上的。
OpenAI網站截圖
但是,中國也有優勢:舉國體制。
“我們可以把串行的試錯變成並行的試錯,甚至可以10條技術路線同時試錯,”,肖仰華解釋道,當一些人在驗證某一個路線,那麼其他人就不必重複驗證該路線,可以轉而去驗證求索B路線、C路線……這就是中國舉國體制的力量。
肖仰華提到,並行試錯需要相關研發機構形成聯盟,例如算力聯盟、數據聯盟和技術聯盟。如果大家能夠做到技術共享、協同研發,就可以把試錯的成本大大降低,並顯著縮短試錯週期。“人家需要用5年,我們可以只用1年。迎頭追趕的策略是存在的,關鍵是我們能不能推動這些聯盟的團結。”
“不能為了追隨ChatGPT,而錯失了下一個ChatGPT”
在採訪中,肖仰華表示,ChatGPT越火,我們在AI領域越要比以往更有戰略定力。
“我們一定要注意一件事:不能為了追隨ChatGPT,而錯失了下一個‘ChatGPT’;不能一窩蜂炒作一個熱點,而忽略了其他熱點。這是我們一定要去防範的。對新出現的熱點要在戰略上重視,但不能打亂自己的既有佈局。”肖仰華説,很多傳統的小模型該研究的也得研究,其他IT技術也得繼續往前推進。
通用人工智能階段,其實熱點紛呈。除了聊天場景下的ChatGPT以外,還有圖文生成,例如Midjourney這樣有代表性的產品和公司;還有具身智能——讓大模型和機器結合去操縱現實世界,讓機器人能夠更好地為我們服務。
具身智能(Embodied Intelligence) 圖源麻省理工網站
“大家一窩蜂搞ChatGPT,會分散我們的精力,會打亂我們科研的節奏。”
肖仰華解釋道,ChatGPT所在的開放聊天存在商業價值,但垂直領域的嚴肅決策商業價值其實更多。比如醫療領域,各界一直希望能有解放醫生的問診機器人;投資領域,人們希望有投資顧問機器人;司法領域,大家也希望有司法諮詢機器人……這些都屬於垂直領域的嚴肅應用場景。
“這些需求不是簡單閒聊功能所能勝任的,需要把專業知識、專家經驗、複雜邏輯等能力賦予機器或者大模型,這樣才有可能解決垂直領域的複雜問題。我們要跟蹤ChatGPT技術,更要補齊其不足,積極推動大模型向千行百業落地。大模型賦能複雜決策場景,是未來人工智能產業發展的焦點。”
圖源騰訊網站
肖仰華認為,現階段中國大模型產業存在四個主要問題。
其一,技術同質化嚴重,很多大模型都是用ChatGPT餵養自己;其二,數據生態不完善。中文數據生態尤其重要,但現在較為欠缺;其三,算力掣肘;其四,模型創新不足,現在很多國內大模型都基於國外的開源社區模型,萬一以後被禁用,我們將非常被動。
這些問題值得我們重視和彌補。與此同時,我們也要展開更多思考。例如大模型要想創造價值,其實有兩個基本要求:其一是底座模型能力,即上述四個我們應該追趕的地方;其二就是行業應用。
肖仰華表示,國外大模型產業已經形成了一個生態,而且發展非常迅速。反觀國內,同質化嚴重,很多企業都在研究底座模型。其實從我們國家的發展態勢來講,恰恰應該用應用帶動底座模型研究。“中國市場巨大、數據豐富,應用場景多元,可以用應用發展來帶動模型進步,走一條‘農村包圍城市’的路線。”
“我們可以把外圍應用和生態做好,不斷去補齊數據、算力、模型和工藝方面的短板,最後在技術模型方面形成我們自己的核心競爭力。”肖仰華説,大模型絕不是宣傳文案的噱頭,也絕不能成為一場華麗的煙花秀,要實實在在地讓它成為推動社會發展和進步的先進生產力。