117款生成式人工智能服務已備案,大模型底層創新夠了嗎?
guancha
4月2日,國家互聯網信息辦公室發佈《關於發佈生成式人工智能服務已備案信息的公告》(以下簡稱“《公告》”)。根據《公告》,目前已有117款生成式人工智能服務通過備案。從屬地來看,生成式人工智能服務集中在北京、上海、廣東,其中北京51款,上海24款,廣東19款。不過,清華大學蘇世民書院院長薛瀾日前表示,在AI大模型方面,單從量上講中國進步很大,但實際上還存在不少問題,因為有不少是用套殼和拼裝的方式構建的。中國數據質量較低也是一個問題。

深圳元始智能有限公司首席運營官(RWKV元始智能)羅璇表示,中國大部分模型基於美國的一些開源開放模型進行微調或重訓練,大部分模型類似於LLaMA模型,底層原始創新少,“國內如果還在照着LLaMA的方向做,永遠沒辦法商業落地、突破天花板。”他認為一定要找到新的架構。
117款生成式人工智能服務已備案
《公告》提出,提供具有輿論屬性或社會動員能力的生成式人工智能服務的,可通過屬地網信部門履行備案程序,屬地網信部門應及時將已備案信息對外公開發布。已上線的生成式人工智能應用或功能,應在顯著位置或產品詳情頁面公示所使用已備案生成式人工智能服務情況,註明模型名稱及備案號。
《公告》顯示,去年8月,智譜“智譜清言”、百度“文心一言”、抖音“雲雀大模型”、百川智能“百應”、中國科學院自動化研究所“紫東太初大模型開放平台”,以及上海稀宇科技“abab”、商湯科技“日日新”、上海人工智能實驗室“書生·浦語”8項生成式人工智能服務完成首批備案。
新近完成備案的有四川長虹電器的“長虹雲帆”、OPPO的“AndesGPT-LVM”、深圳榮耀軟件技術公司的“YOYO助理(移動版)”等。
澎湃科技(www.thepaper.cn)統計發現,通過備案的117款生成式人工智能服務中,屬地以北京、上海、廣東為主。其中北京51款,上海24款,廣東19款。浙江和江蘇分別有7款和2款。天津、貴州、湖南、重慶各有2款,安徽、海南、四川、福建、山東各有1款。此外,中國移動備案了一款“九天自然語言交互大模型”,屬地為國資委。
套殼導致大模型缺乏原始創新
ChatGPT問世後,人工智能領域風起雲湧,技術創新加速。中國人工智能大模型形成“百模大戰”局面。
金沙江創投董事總經理朱嘯虎去年11月曾表示,生成式人工智能百花齊放,但200多個大模型很快就會進入收斂期,未來可能只會剩下10-20個大模型,因為大部分大模型現在很難差異化和商業化。
清華大學蘇世民書院院長薛瀾2月份在中國數字經濟發展和治理學術年會(2024)上表示,在AI大模型方面,單從量上講中國進步很大,但實際上還存在不少問題,因為有不少是用套殼和拼裝的方式構建的。“具體而言,目前很多國外的模型是開源的,那麼在開源的基礎上進行套殼就可以形成一個套殼的大模型,接着再將一些這樣的大模型拼裝在一起就變成更大的大模型,這種方式做出來的大模型背後的原創性是有限的。”
“過去一年多,中國的大部分模型還是基於美國的一些開源開放模型進行微調或重訓練。有一些預訓練能力的企業也是拿着LLaMA架構重新訓練,所以整體來説國內大部分模型是類似於LLaMA的模型。”RWKV元始智能COO羅璇對澎湃科技(www.thepaper.cn)表示,中國大模型的底層原始創新少,更多是探索落地應用等垂直領域創新。
LLaMA是一個基於Transformer架構的大語言模型。“大家的底層架構都在用別人的技術,而Transformer這個架構本身就是有問題的。”羅璇表示,從第一性原理角度來看,Transformer的計算複雜度高,算力需求巨大,算法效率低。這會加重芯片“卡脖子”問題,具身智能、多智能體、世界模型的開發也會被計算複雜度“卡脖子”。“國內如果還在照着LLaMA的方向做,永遠沒辦法商業落地、突破天花板。”他認為未來一定會出現一個新的架構替代現在的Transformer。
此外,中國數據質量較低也是一個問題。薛瀾表示,“中國的數據量很大,但沒有真正產業化,相對標準化的數據服務商還比較少,因為大數據服務不賺錢,公共數據企業沒有意願去清洗,定製化服務一般收費又比較高。因此,數據市場如何構建也是需要解決的問題。”
多元公平競爭,相信第一性原理
中國人工智能的發展有雄厚積累與先發優勢,但薛瀾認為也面臨着一些挑戰。首先是如何形成不同企業公平競爭的市場環境,包括民營企業、國有企業、外資企業,以及大中小企業,多元公平競爭的市場環境對人工智能發展至關重要。其次是產業生態問題,如何建立企業、資金、人才等多方面主體和多方面資源有效流通、協調一致的產業生態。第三是治理問題,怎樣形成可預期、包容審慎、敏捷有效的治理框架,為形成鼓勵人工智能發展的市場環境和產業生態奠定製度基礎。最後是如何聚集全球頂尖人工智能人才,中國要加大開放力度。
從技術角度來看,對於人工智能未來發展趨勢,上海人工智能實驗室領軍科學家喬宇表示有兩條路徑,一是延續大模型路線,用更大的算力擴大模型規模,拓寬能力邊界,向產業滲透,模型也從語言大模型向多模態大模型、具身大模型的方向發展。多模態大模型是現在的競爭熱點,未來的大模型要能和物理世界交流,完成更復雜的任務,所以具身大模型是重要發展方向。但單純擴大規模存在幻覺、效率、可信、安全等瓶頸,這就涉及到第二條新技術路線的探索,要探索強化學習、知識計算、符號推理、類腦計算及其他新型路徑。基於知識、符號、推理的方法,可解釋性和安全性強。
“不要相信美國的權威在説什麼,一定要相信第一性原理。”羅璇則表示,Transformer架構和芯片卡住了商業落地和前端研究,遭遇了尺度定律(Scaling
Law)的困境,當參數到達六七百億時,尺度定律的邊際效益會下降,因此要探索新的模型架構。兼具Transformer和RNN(循環神經網絡)優勢的RWKV就是一種新架構,“我們做了4年。RWKV不但是一個計算效率非常高的大模型,解決了Transformer的計算複雜度問題,而且它已經在商業化落地了。”羅璇表示,RWKV可以解決計算效率低、計算成本高難題,可直接在手機、電腦、機器人等端側運行。所以一定要找到新的架構,企業才能跑出PMF(產品市場匹配度)。“我不希望中國的人工智能落後,我希望中國有真正的全球化開源開放的生態。”
附件:生成式人工智能服務已備案信息(2024年3月)





(澎湃新聞記者 張靜 實習生 方卉)