每Token成本顯著降低 華為發佈UCM技術破解AI推理難題
【環球網科技報道 記者 張陽】8月12日,2025金融AI推理應用落地與發展論壇在上海舉行。在此次論壇上,華為發佈了AI推理創新技術——UCM推理記憶數據管理器,該技術旨在推動AI推理體驗升級,提升推理性價比,加速AI商業正循環。與此同時,華為與中國銀聯攜手,率先在金融典型場景開展UCM技術試點應用,並聯合發布了智慧金融AI推理加速方案應用成果。

當前,人工智能已進入發展深水區,AI推理正成為下一個爆發式增長的關鍵階段,推理體驗和推理成本也因此成為衡量模型價值的重要標準。華為公司副總裁、數據存儲產品線總裁周躍峯博士在論壇上強調:“AI時代,模型訓練、推理效率與體驗的量綱都以Token數為表徵,Token經濟已經到來。”為了保障流暢的推理體驗,企業需要持續加大算力投入,然而,如何在推理效率與成本之間找到最佳平衡點,成為全行業亟待解決的重要課題。
華為數據存儲產品線AI存儲首席架構師李國傑對記者表示,從“模型智能”全面轉向“數據智能”,已在業內形成高度共識,且這一拐點正在加速到來。他進一步解釋道:“一方面,商業側開始追問AI的閉環變現與最終用户體驗;另一方面,當端到端模型能力提升遇到天花板時,系統化地轉向數據智能成為必然選擇” 。
“很多模型之所以表現不及預期,根本原因是缺乏高質量數據。大量依賴AI合成數據,既導致‘數據荒’,又帶來質量隱患,數據治理、數據價值挖掘和數據智能將成為下一階段產業研究的核心議題。”李國傑説。
針對這一難題,華為推出的UCM推理記憶數據管理器,由三大組件構成,分別是對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter)。通過推理框架、算力、存儲三層協同,實現了AI推理“更優體驗、更低成本”。
在提升推理體驗方面,依託UCM層級化自適應的全局前綴緩存技術,系統能夠直接調用KV緩存數據,避免重複計算,使首Token時延最大降低90%。同時,UCM將超長序列Cache分層卸載至外置專業存儲,通過算法創新突破模型和資源限制,實現推理上下文窗口10倍級擴展,滿足長文本處理需求。
在降低推理成本上,UCM具備智能分級緩存能力,可根據記憶熱度在HBM、DRAM、SSD等存儲介質中實現按需流動;同時融合多種稀疏注意力算法,實現存算深度協同,使長序列場景下TPS(每秒處理token數)提升2-22倍,顯著降低每Token推理成本,為企業減負增效。
在與中國銀聯的聯合創新技術試點中,UCM的技術價值得到了充分驗證。在中國銀聯“客户之聲”業務場景下,藉助UCM技術及工程化手段,大模型推理速度提升125倍,僅需10秒即可精準識別客户高頻問題,有效促進了服務質量的提升。未來,中國銀聯將依託國家人工智能應用中試基地,聯合華為等生態夥伴共建“AI+金融”示範應用,推動技術成果從“實驗室驗證”走向“規模化應用”。
華為數據存儲產品線副總裁、閃存領域總裁謝黎明表示,金融行業在AI推理應用中面臨三大核心挑戰:一是長序列輸入導致的“推不動”;二是併發上不去且每Token時延長造成的“推得慢”;三是耗費大量算力做KV重複計算引發的“推得貴”。而華為的解決方案核心就是圍繞改善推理體驗和推理性價比。
李國傑補充道,金融行業在IT信息化和科技賦能建設中一直走在前列,無論是銀行還是保險,都能在大量數據中挖掘機會。隨着走向Agentic AI時代,面臨信息量爆炸,體現在模型側就是顯存不足以及推理Token成本的問題,華為的解決方案正是為了解決這類問題。
論壇現場,華為還正式公佈了UCM開源計劃。UCM通過開放統一的南北向接口,可適配多類型推理引擎框架、算力及存儲系統。今年9月,UCM將正式開源,後續逐步貢獻給業界主流推理引擎社區,攜手全產業共同推動AI推理生態的繁榮發展。
對此,李國傑表示,AI技術棧很深廣,開源是希望行業能在全棧協同上做更多努力,推動推理架構發展,保持開放態度,沿着對推理發展和Token經濟有益的趨勢前進。謝黎明則認為,IT行業產品先行、標準隨後,通過開源,能讓更多廠商和夥伴加入,推動標準落地,共創標準,從而真正解決推理體驗和成本問題。
華為UCM技術的發佈,無疑為AI推理領域帶來了新的突破,也為智慧金融的發展注入了強勁動力。隨着UCM技術的開源和推廣應用,有望推動整個AI推理行業的效率提升和成本優化,開啓AI商業應用的新篇章。