AI數據平台,中國或有更優解_風聞
大数据在线-1小时前
在生成式AI重塑世界的進程中,數據存儲的一場深層次變革已全面啓動。
當AI大模型參數超越萬億級,AI推理全面走向工業化,Manus、Dify等Agent全面爆發之際,高質量的數據集、全新的接口協議和高效快速的數據綜合處理帶來一系列全新存儲挑戰。此刻,算力對於AI應用與發展依然重要,但沒有與之匹配的存力進行高效協同,再強大的算力也無用武之地。
因此,統一的AI數據平台迅速崛起,成為存力發展的重要趨勢和數據存儲產業的焦點。AI數據平台將塊存儲、文件、對象、表格、向量乃至事件流整合到統一的存儲之中,既兼容傳統的通用應用場景,又高效支撐起新型AI應用場景,更徹底消除數據孤島,讓數據價值得以全面釋放。
毫無疑問,與算力一樣,存力也即國力。在中國市場全面受制於先進AI芯片的不爭事實面前,AI數據平台極具市場價值,它不僅為存算協同、以存代算帶來更優解,也有望成為中國數據存儲產業在AI時代走向輝煌的起點。
AI 數據平台崛起
AI大模型的爆發,讓VAST DATA這家公司頻繁進入大眾的視野。作為一家成立僅九年的公司,VAST DATA如今估值達到300億美元,超過絕大多數傳統存儲公司。
VAST DATA之所以能在產業格局早已固化的數據存儲領域脱穎而出,關鍵在於其面向AI時代構建數據平台的理念引發關注。眾所周知,隨着AI大模型的快速迭代與進化,數據存儲的核心需求發生根本性變化,存儲基座全面走向重構,AI 數據平台的價值全面顯現。
其一、從 CPU 轉向 GPU的計算範式變化,推動GPU+NVMe 全閃+RDMA 網絡成為新的技術堆棧標準。而GPU集羣規模的持續增加,也導致吞吐量、並行複雜性和延遲敏感度大幅提升,AI訓練、推理等工作負載追求高併發、低延遲、高吞吐的極致性能。
例如,隨着大模型參數規模的不斷增加,模型訓練多節點梯度同步GB/s級的併發,導致整個AI集羣的併發複雜性持續提升;同時,AI推理對於延遲極為敏感,推理更是延遲>1ms即觸發降級,這些都對數據存儲的極致性能提出極大挑戰,也讓傳統存儲舉步維艱。
其二、AI進入到全新發展階段,多模態成為AI大模型重要趨勢,加上Agent應用的大量湧現,不僅釋放出大量的推理需求,更直接推動Agent生態初步形成,這直接誕生出多模態數據統一管理、中間結果緩存複用、長效記憶能力構建等全新的存儲需求。
以推理為例,國內先進算力稀缺的現實狀況不容忽視。因此,存儲層面的以存帶算意義重大。存儲需要肩負起記憶持久化,基於KV Cache來避免AI推理算力的重複運算,推動存算協同的高效運行。
其三、除興起的AI應用場景之外,企業依然有着像數據庫、虛擬化、通用文件等大量傳統應用場景,二者之間在IOPS、延遲、接口等存儲需求迥異,存儲基座需要減少數據存儲層的複雜性,兼容過去和支持未來,並進一步強化數據安全和徹底消除數據孤島。
顯然,面對數據存儲核心需求的根本性變化,軟硬件架構設計陳舊的傳統存儲已無所適從,AI數據平台則加速接過傳統存儲的接力棒,成為眾多企業在AI時代構建存儲基座的首先。
“存儲的角色不再是傳統的數據持久化,而是支撐萬億參數大模型高效訓推和 Agent行動閉環的智能樞紐。”華瑞指數雲CTO 曹羽中指出。
與VAST DATA類似,華瑞指數雲(ExponTech)也是一家致力於AI數據平台創新的存儲公司。事實上,在傳統存儲軟硬件架構缺陷持續放大的背景下,AI數據平台已然成為中國發展先進存力最重要的創新方向之一。
那麼,以華瑞指數云為代表的中國存儲公司能否為AI時代的存儲基座帶來更優解?
中國或有更優解
舊的範式走向終結,新的力量也即破土而出。
相比於傳統存儲,AI數據平台就像一個重新設計的六邊形戰士,真正在產品層面掀起變革浪潮,滿足用户“既要、又要、也要和還要”的全面需求。
以華瑞指數雲的AI原生智能數據平台--WADP為例,其為Agent時代和多模態AI設計了多協議的融合,是全球唯一能同時覆蓋企業關鍵業務與AI工作負載的分佈式存儲軟件,可以幫助企業構建統一、智能、無限擴展的存儲基座,以一套存儲平台滿足全場景數據存儲需求。
具體來看,WADP首先是一款AI Native Universal Storage,採用模塊化可組合式架構設計理念,在WiDE分佈式數據引擎和天樞元數據引擎基礎上,開發出WDS、WFS、WOS和WQS等一系列組合產品。這種架構設計的好處就是WADP產品組合中任何一款產品均能夠單獨為企業所使用,又能夠通過組合式架構以一套存儲平台滿足全場景需求。
眾所周知,傳統存儲最大詬病就是不同場景的部署與使用往往需要不同的存儲方案,數據、協議、系統之間不互通和協同性差,導致基礎設施擴展性差、數據孤島林立和數據價值無法高效釋放。而WADP則採用多協議融合的設計理念,同一份數據基於豐富的協議接口,無需來回移動拷貝數據,實現無縫互通。
其次,性能與效率仍然是當下AI基礎設施的核心挑戰。WADP這位“六邊形戰士”在性能和效率上同樣不打折扣,關鍵業務與AI工作負載等場景下均表現出色,實現“全面”和“專精”二者兼得。
以面向企業關鍵業務場景為例,WADP在全球存儲性能委員會SPC-1 評測以SDS+普通服務器的方式勇奪全球第一,一舉打破高端存儲多年的壟斷,在性能、延遲和性價比上全面領先,徹底顛覆SDS性能羸弱的刻板形象。曹羽中透露,其WADP在現實中已經完成多個高端存儲遷移項目,幫助企業承接OLTP等核心業務工作負載。
又如,在面向AI的訓練與推理場景中,WADP在今年的MLPerf Storage v2.0測試結果表現優異,Resnet50模型訓練測試中單客户端支持的GPU卡數和帶寬排世界第一;Llama3模型測試僅使用其他評測方案1/5的SSD,在Checkpoint寫入帶寬排世界第三,硬件利用效率極為高效。
“MLperf測試現階段更加鼓勵存儲廠商用各種創新方案去驗證如何滿足AI場景的需求。華瑞指數雲WADP展示了軟件方案搭配極簡硬件(DPU+JBOF盤框)同樣能做到超級IO處理效率、超高的容量密度和性能密度,且總體擁有成本遠低於其他方案。”曹羽中介紹道。
第三,與大部分傳統存儲不同,WADP設計之初就是為AI-Ready而準備,滿足訓練推理、KVCache、RAG場景優化、Agent等AI場景的全棧存儲需求;同時,WADP研發也着眼於未來在數據類型、接口協議等未來的演進,推動AI算力與存力的無縫協同,讓企業數據通過存儲基座源源不斷為AI提供“燃料”。
以KVCache為例,對於國內眾多用户而言,AI芯片、HBM等在AI場景中至關重要,但價格昂貴且受限;隨着DeepSeek等開源大模型的大幅進步,推理時代的全面到來,如何在有限的硬件條件下提升推理速度、降低推理成本就成為當前所有用户都需要面對的一道難題。
對此,WADP的WQS SSD KVCache Pool功能以原生KV接口實現與HBM或者RAM對接,支持遠端和本地SSD形成KVCache Pool,為HBM提供無限擴展的全局共享外部存儲空間,實現超高吞吐、極低時延的推理體驗,同時廣泛兼容國內外主流推理框架,真正實現以存代算,大幅度降低推理場景的算力成本。
曹羽中強調:“現在存儲業界都在卷IOPS、時延、帶寬等性能指標,這是一個誤區。性能固然是AI應用以及企業核心應用的剛性需求,不過達到一定指標之後,存儲的核心價值一是更多在於對於通用和AI場景的高效支持;二則是擺脱傳統存儲協議和IO架構的束縛,面向AI場景設計新的接口方式和新的IO路徑,更高效的與算力以及Agent協同,這兩點也是WADP一直在堅持的方向。”
產業拐點,讓未來更有數
不可否認,隨着VAST DATA、Hammerspace、WEKA等一批美國存儲初創公司全面崛起,全球數據存儲產業正因為AI而進入到一個重要拐點。
對於中國數據存儲產業而言,在經歷了傳統存儲陣列時代的艱難追趕之後,隨着AI數據平台崛起,真正迎來全新的產業契機。這一次,中國存儲公司與海外存儲先鋒站在同一起跑線,有望在未來廣闊的市場舞台上全面施展。
其一,中國市場已具備良好的AI數據平台土壤。IDC數據顯示,2024年國內市場的傳統陣列佔比開始下降到50%以下,分佈式存儲、SDS等被越來越多用户所接受和使用。在傳統存儲陣列市場逐步下滑和式微之際,華瑞指數雲等多家國內存儲公司持續的深耕,讓基於分佈式存儲軟件的AI數據平台成為中國存儲產業最重要的賽道之一。
其二,AI數據平台尚處於發展的早期,路徑依賴和依託國外開源的“拿來主義”絕非長遠之計。華瑞指數雲用WADP證明,全自研固然艱難,但絕非遙不可及。此外,AI數據平台在AI DATA、接口協議等方面依然有着極大探索與創新空間,堅持自研必然會獲得市場、用户更加廣泛的認可。
綜合觀察,一直以來,數據存儲都以技術難、研發投入大、市場門檻高著稱。當算力在AI時代狂飆時,AI數據平台崛起,存力作為基座與支柱的價值愈發被認同,數據存儲產業也開始走向蜕變。面向未來,隨着華瑞指數雲這樣的探路者陸續湧現,中國存儲產業走向輝煌指日可待。