AI大模型即將陷入數據荒?專家:對空間數據、視頻數據的學習利用才剛開始
作者:刘扬 陈山
【環球時報記者 劉揚 環球時報特約記者 陳山】近年來依託大模型驅動的人工智能(AI)已經滲入現代社會的方方面面,但它的高速發展離不開海量數據的支持,以至於業內將數據形容為推動AI發展的“燃料”和“礦產”。但美國人工智能巨頭OpenAI公司聯合創始人兼前首席科學家伊利亞·蘇茨克維爾近日公開警告“AI的訓練數據如同化石燃料一樣面臨着耗盡的危機”,立即引起AI業內的廣泛討論:AI大模型真的將陷入數據荒?未來該怎麼辦?
“預訓練模式必將終結”
美國“連線”網站稱,AI發展離不開三大核心要素:算法、算力和數據。如今算力隨着硬件升級和數據中心擴建正在持續增長,算法也在不斷迭代,但數據的增加速度開始跟不上AI的發展需要。蘇茨克維爾在加拿大温哥華舉行的第38屆神經信息處理系統年會的演講中警告,“我們熟知的預訓練模式必將終結。”他解釋説,“AI的訓練數據,正像石油一樣,面臨着耗盡的危機。無法改變的事實是:我們只有一個互聯網。我們已經達到數據峯值,不會再有更多數據了,我們必須處理好現有的數據。”

清華大學新聞學院、人工智能學院教授瀋陽17日對《環球時報》記者表示,大模型的預訓練是指在構建大型人工智能模型(如GPT系列)時,首先在海量未標註的數據上進行初步訓練的過程。通過自監督學習方法,模型學習語言的基本結構、語法規則和廣泛的知識,形成通用的語言表示。這一階段使模型能夠理解和生成自然語言,為後續的具體任務(如文本分類、問答系統等)提供堅實的基礎。預訓練不僅提升了模型在各種任務中的表現,還減少了對大量標註數據的需求,加速了應用開發的進程。
這並非AI業內首次注意到“數據不夠用”的情況。英國《經濟學人》雜誌不久前也在題為《AI公司很快將耗盡大部分互聯網數據》的報道中,援引研究公司Epoch AI的預測稱,“互聯網上可用的人類文本數據將在2028年耗盡”。
為何AI需要的數據越來越多?
瀋陽介紹説,如今大模型訓練對數據的需求量確實在快速增長,呈現出近似成倍疊加的趨勢。具體來説,像GPT這樣的模型通常需要數百億到數萬億字的數據來進行預訓練。這些龐大的數據集幫助模型深入理解語言結構和語義關係,從而實現其最終的強大性能和廣泛的應用能力。
對於每次大模型迭代都會導致數據量需求急速增加的原因,瀋陽解釋稱,這主要源於模型規模的擴大和性能提升的需求。隨着模型參數數量增加,模型的學習和表達能力也隨之增強,就需要更多的數據來充分訓練這些參數,並確保模型具備良好的泛化能力。
另一方面,數據的多樣性和覆蓋面也是推動數據需求增長的重要因素。為了提升模型的通用性和適應性,必須使用涵蓋廣泛主題和語言風格的海量數據,這不僅有助於模型理解複雜的語言結構和語義關係,還能確保其在各種應用場景中表現出色。同時,隨着模型應用範圍的擴展,如多模態和跨領域應用,對不同類型和領域的數據需求也顯著增加,進一步推動了數據量的增長。
總的來説,技術迭代與數據量之間存在緊密的正相關關係。每一次技術進步,尤其是模型規模和複雜度的提升,都會帶動對更大、更豐富的數據集的需求。這種需求的急速增加不僅是為了提升模型性能和泛化能力,還為了支持其在更廣泛和複雜的應用場景中的表現。
隨着大模型(如GPT-4o及Open AI o1 Pro其後續版本)的規模不斷擴大,對訓練數據的需求量呈指數級增長。每一次模型迭代,參數數量的增加都要求更多的數據以確保模型能夠充分學習和泛化。如今互聯網和其他數據源的增長速度並未完全跟上這種需求,導致可用於訓練的高質量數據相對稀缺。此外,隨着隱私法規的日益嚴格,如歐盟發佈《通用數據保護條例》,大模型研製企業和機構想要獲取和使用大規模數據變得更加複雜和受限,進一步加劇了數據供需不平衡的問題。
未來或將進入“小數據”時代?
瀋陽表示,將AI可用數據的現狀比作傳統礦產資源,並非單純因為數據“總量”枯竭,更像是隨着“礦藏”不斷開採,能輕鬆獲取的優質“礦石”(高質量數據)變少了,剩下的數據要麼同質化較高、要麼質量較低,因此無法直接滿足新一代大模型的訓練需求。如今的數據可能仍有海量存在,但充斥着偏見、不一致或缺乏標註,類似於經過開採剩餘的礦石貧礦化嚴重,需要更多的精煉和加工。
因此未來要想應對這種局面,除了繼續尋求新的數據來源(包括更偏僻的語料、專業領域的數據),還可以嘗試合成數據、數據增強、遷移學習、聯邦學習等策略,提升數據利用效率與質量管理水平。總的來説,困境不單純是“數量不夠”,更是數據“質量與可用性”不足帶來的挑戰,應對之策是在技術、策略、制度層面全方位提升數據處理的精度與效率。
其中合成數據成為應對大模型訓練數據短缺的新思路。相比於從現實世界中採集或測量的真實數據,合成數據是基於模擬真實數據的分佈特徵和統計特性,再通過生成模型而創建的。它能根據實際需求生成海量可訓練的數據集,但也存在所謂“過擬合”問題,導致大模型在合成數據上表現良好,但在真實場景中表現不佳。
瀋陽強調,我們討論近來在全球引發高度關注的“AI大模型預訓練數據是否將耗盡”這個話題時,要釐清兩個問題:一是業內討論的預訓練數據是否將“耗盡”主要針對的是可用於大模型訓練的文本數據,但大模型對空間數據、視頻數據,以及傳感器感應到的自然界中的海量數據的學習與利用才剛剛開始。也就是説由AI大模型學習和使用文本數據邁向這些上述提到的巨量數據,還將會面臨一個巨大量級的擴張。二是未來我們一方面要持續強化大模型的預訓練,但更重要的是研究推理,研究智能體,研究人機共生。“也就是在研究怎樣讓AI通過海量數據學習,能力變強的同時,更要研究怎樣讓人類也變得更強。不管AI能力有多強,人類最終要能夠駕馭AI。”
中國科學院大學教授呂本富17日接受《環球時報》記者採訪時表示,所謂AI大模型預訓練的數據“耗盡”,主要是指互聯網上的數據和各種出版數據。而每個人一生的記憶數據依然存在個人頭腦中,還沒有被有效發掘。隨着預訓練數據是否將耗盡引發熱烈討論,也有觀點認為未來將進入“小模型”時代。呂本富認為,未來大模型、垂類模型和智能體都要找到自己的價值域。學術界還有“世界模型”的提法,不同於現在的大語言模型,世界模型中不僅有邏輯關係(概率判斷),還有物理規律。所以,未來大模型在更高層次上的“決戰”,並沒有結束。