騰訊混元大模型公佈最新進展:上線文生視頻 同時開源
【環球網科技報道 記者 勃潺】12月3日,騰訊混元大模型公佈最新進展:正式上線視頻生成能力,這是繼文生文、文生圖、3D生成之後的又一進展。與此同時,騰訊開源該視頻生成大模型,參數量130億。
“用户只需要輸入一段描述,即可生成視頻,”騰訊混元相關負責人透露,目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP,用户可在AI應用中的“AI視頻”板塊申請試用。企業客户通過騰訊雲提供服務接入,目前API同步開放內測申請。

騰訊混元生成視頻大模型可以實現超寫實畫質、生成高度符合提示詞的視頻畫面,畫面流暢不易變形。比如,在衝浪、跳舞等大幅度運動畫面的生成中,騰訊混元可以生成非常流暢、合理的運動鏡頭,物體不易出現變形;光影反射基本符合物理規律,在鏡面或者照鏡子場景中,可以做到鏡面內外動作一致。同時,模型還可以實現在畫面主角保持不變的情況下自動切鏡頭。
混元的領先能力主要源於其技術創新。其基於跟Sora類似的DiT架構,並在架構設計上進行多多處升級。混元視頻生成模型適配了新一代文本編碼器提升語義遵循,其具備強大的語義跟隨能力,更好地應對多個主體描繪,實現更加細緻的指令和畫面呈現;採用統一的全注意力機制,使得每幀視頻的銜接更為流暢,並能實現主體一致的多視角鏡頭切換;通過先進的圖像視頻混合VAE(3D 變分編碼器),讓模型在細節表現有明顯提升,特別是小人臉、高速鏡頭等場景。目前,騰訊宣佈開源該視頻生成大模型已在 Hugging Face 平台及 Github 上發佈,包含模型權重、推理代碼、模型算法等完整模型,可供企業與個人開發者免費使用和開發生態插件。基於騰訊混元的開源模型,開發者及企業無需從頭訓練,即可直接用於推理,並可基於騰訊混元系列打造專屬應用及服務,能夠節約大量人力及算力,加速行業創新步伐。
從年初以來,騰訊混元系列模型的開源速度不斷加快。此前,騰訊混元已經開源了旗下文生文、文生圖和3D生成大模型。至此,騰訊混元系列大模型已實現全面開源。