騰訊混元大模型公佈最新進展：上線文生視頻同時開源

2024-12-03

【環球網科技報道記者勃潺】12月3日，騰訊混元大模型公佈最新進展：正式上線視頻生成能力，這是繼文生文、文生圖、3D生成之後的又一進展。與此同時，騰訊開源該視頻生成大模型，參數量130億。

“用户只需要輸入一段描述，即可生成視頻，”騰訊混元相關負責人透露，目前的生成視頻支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。目前該模型已上線騰訊元寶APP，用户可在AI應用中的“AI視頻”板塊申請試用。企業客户通過騰訊雲提供服務接入，目前API同步開放內測申請。

騰訊混元生成視頻大模型可以實現超寫實畫質、生成高度符合提示詞的視頻畫面，畫面流暢不易變形。比如，在衝浪、跳舞等大幅度運動畫面的生成中，騰訊混元可以生成非常流暢、合理的運動鏡頭，物體不易出現變形；光影反射基本符合物理規律，在鏡面或者照鏡子場景中，可以做到鏡面內外動作一致。同時，模型還可以實現在畫面主角保持不變的情況下自動切鏡頭。

混元的領先能力主要源於其技術創新。其基於跟Sora類似的DiT架構，並在架構設計上進行多多處升級。混元視頻生成模型適配了新一代文本編碼器提升語義遵循，其具備強大的語義跟隨能力，更好地應對多個主體描繪，實現更加細緻的指令和畫面呈現；採用統一的全注意力機制，使得每幀視頻的銜接更為流暢，並能實現主體一致的多視角鏡頭切換；通過先進的圖像視頻混合VAE（3D 變分編碼器），讓模型在細節表現有明顯提升，特別是小人臉、高速鏡頭等場景。目前，騰訊宣佈開源該視頻生成大模型已在 Hugging Face 平台及 Github 上發佈，包含模型權重、推理代碼、模型算法等完整模型，可供企業與個人開發者免費使用和開發生態插件。基於騰訊混元的開源模型，開發者及企業無需從頭訓練，即可直接用於推理，並可基於騰訊混元系列打造專屬應用及服務，能夠節約大量人力及算力，加速行業創新步伐。

從年初以來，騰訊混元系列模型的開源速度不斷加快。此前，騰訊混元已經開源了旗下文生文、文生圖和3D生成大模型。至此，騰訊混元系列大模型已實現全面開源。