80%行業模型未達預期?數據“欠賬”成AI落地最大攔路虎!_風聞
IT时报-《IT时报》官方账号-46分钟前

從“卷模型”到“卷數據”
作者/ IT時報記者 賈天榮 林斐
編輯/ 王昕 孫妍
在被譽為“史上最熱鬧”的WAIC2025現場,具身智能與智能體的熱度席捲全場,而隱藏在背後的“數據”話題卻顯得更有厚重感。
在WAIC多場主題論壇中,“數據與AI的關係”成為貫穿始終的議題。數據質量、治理能力和場景化深度,正決定着AI從“實驗室”走向“產業界”的速度與廣度。
“目前AI領域的主要工作量已從模型算法轉向數據處理,這是目前最大的工作量,佔了90%。”7月27日下午舉行的WAIC“語料築基 智生時代”語料創新發展論壇上,中國科學院院士、上海算法創新研究院學術委員會主任鄂維南表示,人工智能的發展正經歷一次重要的範式轉變:從以模型為中心的“拼模型”階段,進入以數據為核心的“拼數據”階段。
這一觀點得到多位業界人士的呼應。“數據是人工智能發展的核心問題,解決不好數據問題,算力再強、模型再先進也難以落地。”中國電子信息產業集團副總經理王桂榮直言,當前80%的行業大模型未達預期,根源在於數據基礎薄弱,行業數字化水平不足、數據與業務場景脱節、訓練數據質量不高,“算力可以通過技術優化提升,但數據的‘欠賬’必須先補。”
中國信息通信研究院人工智能研究所所長魏凱同樣強調,數據是AI發展的“第一要素”,“歷次技術突破都伴隨着數據產業模式的迭代,從早期判別式AI到如今的大模型,數據已從‘拼量’轉向‘拼質’。”
IDC中國高級分析師李浩然則表示,2024年全球非結構化數據佔比已達92%,但企業中僅有33%的數據被有效分析,“數據分散、質量參差、跨主體共享難,仍是制約AI落地的三大瓶頸。”

從“卷模型”到“卷數據”
“過去我們有一整套基礎設施幫助‘卷模型’,現在要拼數據,就必須建設全新的基礎設施來‘卷數據’。”鄂維南指出,人工智能要真正“做實”,在企業落地是必要環節,但現實中企業普遍面臨三大困境:其一,企業數據不能輕易外流;其二,企業數據質量參差、治理門檻高;其三,缺乏高水平的人工智能團隊。
“國家推動大數據行業發展十餘年,建設各級數據局、數據要素和流通機制,但整體效果與預期相比還有差距。我個人認為,核心問題在於需求端不足。企業的數據大多用於內部商業智能,而非面向外部開放。如果AI能真正落地,企業對外部數據的需求會迅速增長,整個數據要素市場才能真正轉動起來。”鄂維南直言。
挑戰不止於此,業界專家普遍認為,AI的成熟度取決於數據的“質量”而非“數量”,高質量數據需滿足多元性、場景化與安全性三大特徵。
在多元性上,數據要覆蓋成功和失敗的樣本,以提升模型魯棒性。魏凱提到,上海人形機器人創新中心正建設大規模訓練場,採集機器人操作的“高維物理數據”,“這類數據能讓AI理解物理規律,是通向通用智能的橋樑”。
場景化則要求數據與業務深度綁定。中鋁集團CIO謝海以“有色金屬行業大模型”為例,其覆蓋勘探、冶煉全流程的60餘個場景模型正是基於“高價格金屬材料金相組織數據集”訓練而成,“電解鋁工藝優化模型已實現生產效率提升,這離不開針對性的數據積累”。
安全性是底線,謝海強調,數據集建設需同步構建“安全防控體系”,“數據治理不僅要保障質量,更要兼顧合規與隱私,否則模型再高效也難以落地”。


高質量結構化數據
準備好了嗎?
為破解數據瓶頸,行業正從技術工具與生態協作兩方面突破。
上海人工智能實驗室青年科學家何聰輝表示,當前所有的模型都是用非常類似的公開數據集做訓練,模型的同質化不可避免。
如何打破僵局?何聰輝認為,AI數據的價值發生了躍遷,模型將會從規模之爭走向數據質量的競賽。他介紹了MinerU 2,在原來的基礎上,用更新的架構把數據解析推向了新高度,性能提升了6倍,準確性提升22%,能支持更加廣泛的場景。
在談及如何應對“拼數據”時代的挑戰時,鄂維南提出,AI需要一套新的Data-Centric(以數據為中心)基礎設施,涵蓋數據庫、數據準備、質量評估、數據合成與安全。
2018年,鄂維南和團隊率先推出全球首個AI數據庫MyScale,實現了文本、向量、表格、結構化與非結構化等多模態數據的統一管理與高效查詢,成為AI for Science等複雜科研場景的基礎工具。
與此同時,鄂維南介紹了DataFlow數據準備工具:“它對標模型訓練中的TensorFlow(主流AI框架),希望通過基礎算子和管線,讓複雜的數據操作模塊化、自動化,從而顯著降低成本與門檻。”
鄂維南團隊目前正在探索“自動化數據產線”,通過AI數據庫與DataFlow的結合,使模型能夠像“看醫生”一樣按需調用最合適的數據,而非依賴人工經驗“作坊式”處理。
在醫療、金融等行業測試中,該自動化體系在成本和效果上均優於人工團隊。用這套方法訓練的8B模型,在專業場景中甚至超過了671B級別的大模型,這證明了高質量數據基礎設施的價值。
魏凱也提到了微軟2023年發佈的研究成果——用規模僅為7B Token的“教科書質量”數據訓練了一個1.3B參數的模型。儘管在數據集和模型大小方面比競品模型小几個數量級,但準確率並不輸競品模型。
在技術層面,“數據工程化”成為核心方向。星環科技CEO孫元浩提出“AI就緒數據平台”概念,通過自動化工具將非結構化數據(如文檔、視頻)轉化為結構化數據,“某客户升級後,數據處理即時性從‘T+1天’提升至‘T+1秒’,直接支撐了即時AI決策。”
清華大學鄭緯民院士則聚焦數據預處理效率,其團隊研發的文件系統可預處理400億個文件,“解決海量數據的存儲與定位問題是模型訓練的前提”。
生態層面,跨主體協作加速數據流通。東航數字科技董事長高志東介紹,東航與中國電子雲共建“航空業訓練數據空間”,推動機場、維修企業等數據共享,“基於此開發的‘旅客服務多智能體’已覆蓋出行全流程,中轉預警模型讓浦東機場中轉效率提升30%”。
此外,政策引導也至關重要。魏凱表示,國家正推動30家央企開展垂直領域數據建設試點,7個數據標註基地已形成335個高質量行業數據集,“新一代數據標註不再依賴低端勞動力,而是聚焦‘高技術、高附加值’,這是數據產業升級的關鍵”。

全國首個
語料運營公共服務****統一門户成立
本屆WAIC上,業界專家達成共識,數據與AI的關係已從“支撐與被支撐”升級為“共生共榮”。
波士頓諮詢公司董事總經理及全球合夥人俞晨驁指出,AI價值的終極釋放需“碳基(人)與硅基(AI)協同”,即通過數據串聯業務流程與組織變革。
李浩然則預測,到2028年,即時數據管理、多模態數據融合將成為企業核心競爭力,“數據與AI的深度耦合,將推動千行百業真正邁入智能時代。”
正如魏凱所言:“數據是AI的‘燃料’,唯有夯實數據基礎、打通流通壁壘,人工智能才能真正成為驅動產業變革的‘引擎’。”
《IT時報》記者注意到,對於AI語料,上海市委、市政府一開始就高度重視,2024年庫帕思成立,以市場化運營的方式為行業發展賦能,為中小企業的創新發展賦能,重點突破具身智能、強推理數據集、稀缺數據集等3個專項工程。通過建立共建、共享、共同收益的機制,把高質量語料庫建設好,構建多層次的語料供給體系,強化語料的標準建設,升級語料的運營平台,進一步攻關數據合成、思維鏈等新技術,賦能新應用,真正實現有效供給,加速推動模型迭代。
WAIC2025期間,上海在建設語料基座方面釋放出明確信號:一方面通過進一步加大稀缺語料數據集、思維鏈數據集建設等專項工程,聚焦具身智能、科學智能,做優行業語料,構建多層次語料供給體系;此外,強化語料標準建設,升級語料運營平台,進一步攻關數據合成、思維鏈數據集成等新技術,持續優化創新新型數據底座的建設。
WAIC2025上,庫帕思按上海市整體部署打造了全國首個語料運營公共服務統一門户,深化眾包眾創和開源開放的語料運營機制。庫帕思曾於WAIC2024期間發佈《語料庫建設導則》,今年則集中發佈了10項團體標準、3項行業標準、1項指南。

上海市信息投資股份有限公司副總裁、上海庫帕思科技有限公司董事長山棟明表示,人工智能的浪潮已經撲面而來,模型正在發生一系列的變化,從過去的大參數、多模態模型逐漸向小參數生產力模型、強推理慢思考模型、科學智能模型和麪向物理AI的具身智能模型轉變。相應的語料數據也會發生一系列變化。因此,庫帕思進行了一系列的創新實踐,用三個重構來表達:語料數據方法體系重構、語料技術設施體系重構、語料行業生態體系重構,同時堅持做好四件事:建基座、強技術、搭平台、育生態。
鄂維南指出,未來必須建立高質量的“數據產線”,這是未來人工智能最重要的基礎設施,在上面可以支撐各種各樣的大模型或智能體。如果把原始數據比作“原油”,這套基礎設施則是“煉油廠”,把原油煉成了可以用的精品油,同時也要有一個比較好的存儲機制,裏面有一系列工具能把數據高精度提取出來、用起來,這就是AI數據庫。整套連在一起,才能把“數據產線”做好。
鄂維南表示將和庫帕思一起,把這樣的“煉油廠”“倉庫”等建起來,然後在全國範圍內批量落地高質量、高水平的專業數據產線。
排版/ 季嘉穎
圖片/ WAIC 豆包AI
來源/《IT時報》公眾號vittimes
E N D