榮耀阿爾法戰略深化,端側AI技術獲國際語音頂會認可
guancha

8月17-21日,國際音頻領域頂級會議INTERSPEECH在荷蘭鹿特丹舉辦。榮耀聯合上海交通大學完成的兩篇聚焦端側多語種任務的研究成果成功入選INTERSPEECH2025錄用論文,並受邀在會議上作技術發表。作為全球語音科學與技術領域最具權威性的學術會議之一,INTERSPEECH的認可體現了榮耀在端側AI語音技術領域的持續努力與技術積累,這表明榮耀在全球化的AI技術交流中,取得了一定進展。
雙論文入選國際頂會
INTERSPEECH作為國際音頻領域頂級會議,其收錄論文代表着全球語音技術研究的最前沿方向。榮耀的兩篇論文成功入選,聚焦的正是當前端側AI語音技術的核心難題——如何在移動設備有限的算力與存儲資源下,實現媲美雲端的多語種即時語音識別與通話翻譯體驗。


榮耀兩位AI專家在荷蘭鹿特丹INTERSPEECH學術交流現場作技術發表
據瞭解,榮耀研發團隊與上海交通大學的聯合攻關,針對“端側實現高準確率、高響應速度翻譯體驗”的技術痛點提出獨創性解決方案,相關技術已成功轉化為可落地的端側多語種通話翻譯功能,實現了從學術研究到產業應用的無縫銜接。
構建全球首個端側語音大模型
在移動互聯網時代,語音已成為人機交互的核心入口,而端側語音技術的突破直接關係到用户體驗。長期以來,行業面臨着兩難困境:依賴雲端處理的語音翻譯方案存在隱私泄露風險,而傳統端側方案又受限於設備算力,難以實現即時性與準確性的兼顧。
榮耀的研究項目啓動之初就確立了“純端側實現媲美雲端的通話翻譯體驗”的目標,這意味着研發團隊必須在算力、存儲、功耗多重約束下,解決兩大核心挑戰:一是如何讓AI在極短時間內精準識詞,實現低延遲與高準確率的平衡;二是如何在有限資源下保證翻譯響應的流暢性與即時性。
經過多次技術迭代,榮耀團隊創造性地提出兩大技術方案:其一,通過創新的注意力機制與決策策略結合,讓端側AI實現流式語音識別能力,無需等待用户説完整句話即可啓動識別與翻譯,徹底打破傳統方案的延遲瓶頸,真正做到“邊説邊識別”;其二,提出全新的投機採樣推理模塊,通過直接與主模型的“大腦”協同工作,即時讀取並利用主模型已經形成的“記憶”和“思路”來高效預測接下來可能出現的詞,在不降低準確性的前提下實現推理速度的顯著提升。
這兩項技術方案不僅通過了權威學術評審,同時在實測中展現出強大性能:將傳統方案3-4GB的內存佔用壓縮至800MB,節省75%存儲空間;翻譯準確率提升16%,推理速度提升38%,真正實現了“小而美”的突破。
依託這些技術創新,榮耀成功構建起全球首個端側語音大模型,將中、英、德、法、西、意等6個語種包嵌入僅0.8B參數量的模型中,用户無需額外下載語音包即可實現多語種互譯,且支持離線使用——這意味着即便在無網絡環境下,語音數據也能在本地完成處理,從源頭保障隱私安全。
榮耀AI技術矩陣構建全生態體系
榮耀在端側AI語音技術領域的突破,並非偶然,而是品牌長期深耕AI戰略的必然結果。自阿爾法戰略公佈以來,榮耀在AI技術領域的投入始終保持“持續性”與“前瞻性”,從AI體驗落地到技術開源,再到端側語音大模型突破,形成了清晰的戰略演進路徑。
此前,在世界人工智能大會(WAIC)期間,榮耀正式發佈自研多模態感知大模型——MagicGUI大模型。作為榮耀推出的首個GUI開源大模型,MagicGUI以7B(70億)參數規模,支撐底層AI智能體的多模態感知與自動執行規劃能力,比肩SOTA模型達到行業領先水平。