存力中國行北京站釋放信號:AI推理進入存算協同深水區
【環球網科技報道 記者 張陽】11月4日,“存力中國行”北京站活動在中國信息通信研究院順利舉辦,來自產業鏈上下游的企業代表、專家學者及媒體共同聚焦AI推理時代的存力挑戰與創新路徑。隨着AI技術從模型研發走向行業規模化應用,推理階段的性能、效率與成本控制成為決定技術落地價值的“最後一公里”,而先進存力作為核心支撐底座,正迎來技術重構與生態協同的關鍵變革期。

Token經濟時代,推理成本成行業落地瓶頸
當前,AI產業已從“造模型”的狂熱期邁入“用模型”的深耕期,大模型數量逐漸收斂,推理應用呈現爆發式增長。金融風控、醫療輔助診斷、電商推薦、投研分析等場景的深度滲透,推動Token調用量呈指數級攀升,“Token經濟”時代已然到來。
但繁榮背後,三大核心痛點制約着AI推理的規模化落地:數據層面,多模態數據爆發式增長使存儲面臨PB到EB級的容量壓力,且數據格式異構、流通困難導致高質量數據集構建成本高昂;性能層面,KV Cache技術的廣泛應用對存儲的高帶寬、低時延提出嚴苛要求,傳統架構難以滿足存算協同需求;成本層面,HBM等高端存儲介質價格昂貴,疊加推理負載的潮汐性特徵,導致中小企業智能化轉型門檻居高不下。
華為數據存儲產品線戰略與業務發展部總裁王旭東表示,推理數據來源多樣難以形成高質量、可持續供應的數據集,存儲系統的帶寬和IOPS(每秒讀寫次數)不足,導致GPU等昂貴算力資源長時間空閒。傳統存儲架構難以兼顧高吞吐、低時延及異構數據融合的需求,造成業務發展瓶頸,阻礙AI應用落地。
先進存力破局:從“被動容器”到“智能協同體”
面對行業痛點,技術創新成為破局的核心動力,存儲架構正經歷從“被動存儲”到“智算協同”的根本性轉變。其核心路徑在於構建以KV Cache為中心的推理記憶數據湖,通過存、算、網、框架的深度協同,重構推理效能。
華為推出的UCM(Unified Cache Management)統一緩存管理技術,正是這一思路的典型代表。UCM並非簡單緩存,而是一個智能的數據調度與管理系統。它通過HBM-DRAM-SSD三級緩存架構,將非活躍的KV Cache從顯存動態卸載至高性能SSD,從而在不增加硬件成本的前提下,實現首Token時延最高降低90%、系統吞吐率提升22倍、上下文窗口擴展10倍以上的突破性效果。
更關鍵的是,UCM已於2025年9月在魔擎社區開源,向全行業開放接口。此舉不僅降低了中小企業獲取先進推理加速能力的門檻,更旨在推動形成統一的技術標準,避免生態碎片化,加速千行百業智能化進程。
從技術突破到生態共建:先進存力邁向體系化發展
單點技術創新固然重要,但要真正釋放AI潛能,必須依靠系統性協同。在政策引導下,中國信息通信研究院聯合華為、中國移動、浪潮等企業成立“先進存力AI推理工作組”,圍繞技術研究、標準制定、方案落地與生態構建四大任務,推動產業規範化發展。從技術協同來看,芯片廠商的3D堆疊技術、存儲廠商的架構創新、雲服務商的平台優化形成了良性互動,如硅基流動的推理框架適配華為昇騰算力與UCM技術,實現了軟硬件協同增效。運營商則發揮網絡與資源優勢,推動存算網深度融合,移動雲探索的以太網協議棧替代RDMA方案,為存量資源複用提供了可行路徑。
值得注意的是,我國存力產業已具備堅實的發展基礎。截至2025年6月,全國存力總規模達1680EB,先進存儲佔比提升至28%,距離《算力基礎設施高質量發展行動計劃》提出的2025年目標已近在咫尺。在技術層面,國產分佈式存儲產品、AI存儲系統多次斬獲國際權威測試冠軍,232層三維閃存芯片達到業界先進水平,閃存主控芯片實現商用突破,產業鏈自主可控能力持續增強。這些成果為AI推理存力革新提供了堅實保障,也為應對國際技術競爭構築了產業屏障。
面向未來:存力即生產力
從本次研討會展現的技術成果與產業共識來看,先進存力已不再是單純的“數據容器”,而是成為AI智算體系中的“協同中樞”。隨着技術創新的持續深化與產業生態的不斷完善,存力將徹底破解AI推理的性能、成本與效率瓶頸,推動智能化轉型從大企業的“奢侈品”轉變為中小企業的“必需品”。
當AI從實驗室走向生產線、診室、客服台,其價值不再僅由參數規模定義,而取決於能否在真實業務場景中實現“快、準、省”。先進存力通過破解內存牆、容量牆與成本牆,正在讓這一願景成為可能。