騰訊將發佈全球首個全模態模型“混元-O”
胡祥熙

騰訊自研大模型“混元”發力“全模態”領域。
近日,觀察者網瞭解到,基於騰訊自研大模型混元的首個端到端語音通話模型Hunyuan-Voice,最快今年6月上線騰訊元寶App。而且騰訊已規劃多模態和全模態路線,最快今年將推出全球首個“全模態模型”,代號為混元-O。

騰訊混元
在大模型領域,多模態表示該模型能處理多種模態數據並進行融合交互,而全模態是在多模態基礎上更全面,理論上涵蓋所有模態類型,能更綜合地處理和理解各類模態信息。而騰訊計劃推出的代號為混元-O的模型就瞄準了全模態的場景。
隸屬於騰訊TEG(技術工程)事業羣的騰訊混元科研人員向國內媒體透露,面向AGI,混元將以語言模型為核心,探索多種模態融合,並將向深度、廣度兩方面持續推進探索。一方面,混元從大語言模型向多模態模型發展,理解和模擬物理世界;同時,混元還將瞄準更智能的推理、規劃、智能體,以及探索知識邊界,自我啓發、自我迭代、自我發現,最終與具身智能等技術結合,向環境中自主行動和學習的世界模型方向進行探索。
此前,騰訊未曾公開披露過關於混元-O全模態模型技術的具體信息,這次也是首次騰訊混元披露相關全模態消息。
此外,騰訊即將上線的Hunyuan-Voice語音模型可能對標的是字節跳動旗下的豆包AI所具有的視頻通話功能,字節的豆包AI語音對話功能流暢、自然,在行業中處於領先位置。
騰訊雲副總裁王迪表示,混元正快速提升智能化水平,覆蓋更廣泛的應用場景,為 AI 技術普惠與產業轉型升級提供支持。同時,混元將持續推進開源策略,涵蓋多種尺寸與場景的全系模型。
本文系觀察者網獨家稿件,未經授權,不得轉載。