騰訊將發佈全球首個全模態模型“混元-O”

胡祥熙

2025-05-26

騰訊自研大模型“混元”發力“全模態”領域。

近日，觀察者網瞭解到，基於騰訊自研大模型混元的首個端到端語音通話模型Hunyuan-Voice，最快今年6月上線騰訊元寶App。而且騰訊已規劃多模態和全模態路線，最快今年將推出全球首個“全模態模型”，代號為混元-O。

騰訊混元

在大模型領域，多模態表示該模型能處理多種模態數據並進行融合交互，而全模態是在多模態基礎上更全面，理論上涵蓋所有模態類型，能更綜合地處理和理解各類模態信息。而騰訊計劃推出的代號為混元-O的模型就瞄準了全模態的場景。

隸屬於騰訊TEG（技術工程）事業羣的騰訊混元科研人員向國內媒體透露，面向AGI，混元將以語言模型為核心，探索多種模態融合，並將向深度、廣度兩方面持續推進探索。一方面，混元從大語言模型向多模態模型發展，理解和模擬物理世界；同時，混元還將瞄準更智能的推理、規劃、智能體，以及探索知識邊界，自我啓發、自我迭代、自我發現，最終與具身智能等技術結合，向環境中自主行動和學習的世界模型方向進行探索。

此前，騰訊未曾公開披露過關於混元-O全模態模型技術的具體信息，這次也是首次騰訊混元披露相關全模態消息。

此外，騰訊即將上線的Hunyuan-Voice語音模型可能對標的是字節跳動旗下的豆包AI所具有的視頻通話功能，字節的豆包AI語音對話功能流暢、自然，在行業中處於領先位置。

騰訊雲副總裁王迪表示，混元正快速提升智能化水平，覆蓋更廣泛的應用場景，為 AI 技術普惠與產業轉型升級提供支持。同時，混元將持續推進開源策略，涵蓋多種尺寸與場景的全系模型。

本文系觀察者網獨家稿件，未經授權，不得轉載。