數據決定AIGC的高度,什麼又決定着數據的深度?_風聞
大数据在线-07-27 17:52
有人曾言,數據決定人工智能發展的天花板。深以為然。
隨着ChatGPT等AIGC應用所展現出的強大能力,人們意識到通用人工智能的奇點正在來臨,越來越多的企業開始湧入這條賽道。在AIGC浪潮席捲全球之際,數據的重要性也愈發被業界所認同。
之所以會如此,有兩個關鍵原因:其一,高質量數據是AIGC 應用的核心,決定着算法的性能、泛化能力和應用效果;其二,與數據相關的“存、管、用、傳”逐漸成為AIGC發展的瓶頸,亟待高水平的基礎設施來協助突破。
可以説,深度學習在過去十年的高速發展,讓異構算力的作用與價值得到高度認可;未來十年,數據存儲的變革將決定着高質量數據發展的深度。
AIGC市場發展趨勢是什麼
大模型所展現出的強大能力和較強的泛用性,已經讓AIGC應用在辦公、會議、對話、搜索、廣告等內容生成領域初露鋒芒。當前,AIGC和大模型的賽道熱鬧非凡,僅僅中國市場就有上百個大模型湧現,“百模大戰”的盛況讓市場熱度持續升温。那麼,未來的大模型和AIGC市場的發展趨勢是什麼?
毫無疑問,接下來,出於對交互體驗升級和降本增效的巨大需求,AIGC和大模型廣泛進入垂直行業已是不可阻擋的趨勢。Gartner預測,到2032年,生成式人工智能市場規模將達到2000億美元,在金融、教育、醫療、工業等領域有着廣闊的應用前景。
中金公司研究部判斷,未來的大模型市場類似雲計算市場,就像一個冰激凌蛋筒,上面的冰激凌球代表金融、醫療、教育等多個關鍵行業的垂直大模型,與私有云的現狀與曲同工;下面的筒身則代表着通用大模型,覆蓋廣泛的長尾市場,類似公有云市場那樣的覆蓋。
顯然,越來越多行業用户看到了垂直行業大模型的巨大潛力。這些重點行業場景足夠豐富、業務數據量巨大、降本增效需求強烈,加上這些行業的用户本身即是私有云的重度用户,看重數據的安全性和本地化部署,對於垂直大模型的需求極為強烈。
“當前,大模型和AIGC市場依然處於早期。但AIGC對於整個行業應用是變革性的,所有行業都必須去適應AIGC帶來的變化。這無疑在未來五到十年將產生持續且巨大的數據存儲需求。”浪潮信息首席架構師葉毓睿判斷道。
AIGC數據存儲挑戰到底有哪些
今年4月,OpenAI CEO Sam Altman認為,增加大模型的參數數量不再是提升大模型能力的最有效手段,大規模、高質量數據和數據高效處理工程化才是關鍵。事實上,從OpenAI GPT-5開始,多模態被視為是大模型下一階段的重要演進方向。
多模態大模型意味着除了文本數據之外,音視頻數據也將加入其中,這會讓AIGC的數據特徵呈現出數據海量化、多元數據類型複雜、服務協議多樣、性能要求苛刻和要求服務持續在線,進而帶來一系列極為複雜的數據存儲挑戰。
浪潮分佈式存儲總經理姜樂果認為,當下AIGC應用背後需要對行業上下游對數據進行採集、標註、訓練、推理、歸檔,帶來了異構數據的融合、持續的低延遲與高帶寬和EB級大容量存儲需求等三大重要挑戰。
首先是異構數據的融合。大模型訓練數據呈現來源多、格式多的多源異構現狀,對於面向單一數據類型設計的傳統存儲是極大挑戰。這種傳統模式的缺陷就是很難在一個數據平台上滿足不同數據類型對於性能的不同需求,在大模型從採集、標註到訓練、推理整個數據存儲管道中,需要來回進行數據拷貝,數據處理效率低且無法滿足AIGC應用的處理需求。
“傳統存儲需要以搬移數據的方式實現多協議訪問,這是AIGC應用平台一大關鍵瓶頸。支持異構數據的多協議融合將是解決挑戰的關鍵。”姜樂果直言道。
第二是持續的低延遲與高帶寬。在大模型的訓練過程中,需要頻繁從數據集取Token。但是每個Token通常只有4個字節,這就造成了實時高併發的海量小IO,需要極低的延遲來保障性能;此外,大模型在存儲模型Checkpoint時,需要高帶寬來支撐數據的快速寫入。
“大模型訓練時候通常要調用上千塊GPU塊,某一塊卡出現故障或者問題的情況比較正常。如果出現故障,模型需要重新拉起,利用備用節點來替代,備用節點CheckPoint需要存儲的高帶寬來實現數據快速寫入,否則就很容易造成GPU算力資源的浪費。”浪潮信息AI架構師楊鑫介紹道。
第三是EB級大容量存儲需求。大模型的越多數據投餵結果越精準的工作原理,決定着大模型訓練存在深度學習網絡層數多、連接多、參數和數據集種類複雜、數據量大的特徵,隨着模型參數和數據量的快速增長,對於存儲的大容量和擴展需求也迫在眉睫。
“比如,浪潮信息自身的源1.0大模型,加入音視頻數據之後,經過不斷訓練已經達到上百PB的數據規模。”姜樂果介紹道,“隨着訓練的不斷深入,對於數據存儲容量、性能的需求也會持續增長,需要存儲具備極致容量和極致性能的能力。”
葉毓睿則表示,AIGC涉及包括採集、標註、訓練、推理、歸檔等數據處理的過程較長,且不同階段對於性能、延時、數據安全等要求不同。從產業變革的角度看,AIGC正在推動數據存儲產業進行全方位的技術升級,未來專業的AIGC存儲產品與解決方案需求將大幅增加。
面向未來,讓AIGC有數
如果説數據存儲是AIGC應用的地基,那麼這個地基的深度與優劣將決定着AIGC應用的通用性和效率。一旦AIGC應用的效率持續提升和拓展,也意味着垂直行業的生產力有望迎來質的變化。
當前,市場中專門針對AIGC的存儲解決方案並不多,尤其是經過驗證過的存儲解決方案很少。浪潮信息是市場中率先推出相應解決方案的廠商,利用一套AS13000融合存儲支撐生成式AI的全階段應用,一套存儲提供端到端的數據流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態和全模態的大模型需求。
據悉,浪潮信息AS13000提供全閃、混閃、帶庫、光盤四種介質,支持文件、對象、大數據、視頻、塊協議,可滿足大容量、多協議共享,百萬以上IOPS,100GB以上帶寬,冷數據的長期保存和歸檔。“浪潮信息的AIGC存儲解決方案已經支撐過浪潮信息源1.0大模型以及其他AI公司的大模型訓練。”姜樂果如是説。
從浪潮信息透露的信息來看,AS13000有效避免了傳統存儲方案台設備並存帶來的各種複雜性、數據處理低效率以及數據孤島,對於AIGC突破海量數據瓶頸和加速釋放數據價值有着極大幫助。
姜樂果介紹,浪潮信息生成式AI存儲解決方案擁有極致融合、極致性能、極致節能,和熱温冷冰四級全生命週期存儲管理四大特點。
第一是極致融合。一個集羣內支持多個存儲池,一個存儲池內支持文本、圖片、音頻、視頻等多種類型數據存儲,一份數據又可以被前端不同業務場景以文件、對象、大數據以及視頻的存儲方式並行訪問。完美契合了多模態大模型場景的數據存儲需求,並且實現應用間數據實時共享以及存儲空間的最優化。
第二則是極致性能。AIGC帶來的是性能指數級的增長,大帶寬、高IOPS在未來會成為業務需求的標配。對此,浪潮信息的解決思路是通過架構、硬件、關鍵技術、IO路徑優化等多種手段實現存儲性能的充分釋放。
“比如,數控分離架構可以減少東西向數據量的轉發;GDS、RMDA技術則可以縮短I/O路徑,SPDK、緩存零拷貝技術則可以有效減少I/O路徑上的數據拷貝;基於自研NVMe SSD開發的盤控協同技術,則減少I/O訪問SSD盤的次數,進一步提升性能。”姜樂果補充道,“像全閃單節點帶寬超過50GB/s,IOPS超過50萬,雙控全閃節點,帶寬超過100GB/s,IOPS超過100萬。”
以源1.0大模型為例,在AS13000並行存儲支撐下,2128個GPU集羣上跑了16天完成訓練,算力效率達到45%,遠超MT-NLG與GPT-3等國際知名模型。
第三則是極致節能。相關數據預測,到2025年,我國AI算力總量將超過1800EFlops,AI算力佔總算力比重超過85%,這意味着與AI相關的數據存儲也將大幅增加,隨之而來不容忽視的挑戰就是節能減排。為此,浪潮信息最新的G7硬件平台中,存儲專用的液冷服務器涵蓋性能型和容量型,且均採用模塊化冷板組件設計模式,並且浪潮信息具有風液式,全液式等完善的端到端解決方案。
最後則是端到端的全生命週期管理。浪潮信息生成式AI存儲解決方案採用閃存、磁盤、磁帶、光盤四種介質提供熱温冷冰四種存儲資源,且實現了資源的互通和數據全生命週期的管理。此外,四種介質、四類存儲節點提供熱温冷冰自動流轉,滿足各類應用的靈活配置需求,用户們可以根據性能型、均衡型、容量型、高密容量型四種機型的按需靈活配置,進一步降低整體投入。
“目前市場上能夠構建起完整端到端支撐平台的用户還是少數。大部分用户希望是有一攬子解決方案,來支撐起他們迅速構建起平台。浪潮信息自身擁有大模型的經驗,可以通過生成式AI存儲解決方案將好的經驗和實踐快速輸出到市場中,更好地推動AIGC產業發展。”姜樂果總結道。