魏亮:高質量數據集是大模型性能提升關鍵
【環球網科技綜合報道】“在大模型為代表的人工智能技術發展過程中,數據是大模型智慧的來源,任何一個高性能大模型,都離不開高質量的數據集。多模態數據、具身智能數據、推理思維鏈數據和長視頻數據是下一步高質量數據集建設的重點。”中國信息通信研究院副院長魏亮日前在2025人民數據大會上表示。
隨着人工智能技術的加速迭代,大模型如雨後春筍般不斷湧現。然而,大模型對數據集的需求增速遠遠超過了高質量數據集的生產和生成速度。在此背景下,高質量、高價值密度的數據集對於企業而言,不僅是撐起差異化競爭的有力武器,更是企業人工智能業務發展的堅固護城河。
魏亮進一步闡釋了高質量數據在垂類模型訓練中的重要作用。他表示,誰掌握了高質量數據,誰就能訓練出好用的垂類模型。當垂類大模型在生產中得到規模應用時,會生成更多高質量數據並反饋到模型中,進而形成“數據飛輪”效應,推動模型性能不斷提升。
那麼,如何保障高質量數據的供給呢?魏亮提出了三個方面的關鍵措施:數據技術、數據工程以及數據治理。
數據技術涵蓋新一代標註技術與合成技術。當前,在一些高技術含量、高知識密度、高價值的應用場景中,行業頂尖專家的高水平數據標註成本可能高達幾十美元甚至上百美元,這也成為了新一代標註技術的發展方向。而合成技術最初主要用於解決數據流通中的隱私問題,如今在應對訓練集不足方面也發揮着越來越重要的作用,在物理仿真、統計模型、機器學習等領域展現出巨大潛力。
數據工程則聚焦於提升模型數據集的管理和效率。其目標是能夠規模化、高效地生成好用的數據集,圍繞管理體系、開發維護、質量控制、資源運行和合規可用五大要素搭建完善的數據工程體系。
數據治理強調在數據控制過程中實現高質量、可靠、安全與合規。倫理要求也必須充分體現在數據治理中,從而更好地服務於數據集建設。
魏亮強調,高質量數據集的建設是提高人工智能性能的關鍵所在,也是推動“人工智能 +”行動落地的重要保障。隨着“人工智能 +”行動的發佈,人工智能正式進入數據驅動的新階段。通過AI的數據技術、數據工程和數據治理的協同作用,能夠共同推動高質量數據要素的高效能供給,為人工智能的未來發展注入強大動力。
據悉,大會期間還同步發起了《構建數據要素生態倡議》,圍繞“共建基礎設施,夯實安全底座”“共築可信數據空間,推動合規流通”“共探數據權益,明晰權屬激勵創新”“共育AI+數據要素場景,激活產業價值”“共建數據互聯標準,打通產業經脈”“共築數據安全長城,夯實信任根基”提出六點主張,旨在推進數據要素市場化配置,釋放數據價值,保障數據安全。(旺旺)