騰訊混元又更新，可讓高達跳舞的圖生視頻功能上線

胡祥熙

2025-03-06

3月6日，騰訊混元保持此前的高強度更新，又正式推出了開源的圖生視頻模型，同步開放視頻生成、對口型及動作驅動等趣味功能，並支持2K高清視頻與智能背景音效生成。用户現可通過官網或API接口快速體驗這一創新技術。

本次更新的核心功能亮點是靜態圖轉動態視頻。在上傳任意圖片後，通過簡單文字描述畫面運動方式（如物體移動軌跡或鏡頭運鏡），模型即可生成5秒動態短視頻，並自動匹配契合場景的背景音效。智能口型同步。

上傳人物肖像後，輸入文字內容或音頻文件，AI將精準驅動人物口型，實現説話或歌唱效果。結合預設舞蹈模板，靜態圖片人物還能一鍵生成流暢的舞蹈視頻。開發者生態支持：

本次開源的130億參數模型覆蓋寫實、動漫及CGI角色生成場景，提供完整模型權重、推理代碼及LoRA訓練代碼。開發者可通過騰訊雲API接入服務，或在GitHub、HuggingFace社區下載資源，基於基礎模型訓練定製化衍生模型（如專屬LoRA），拓展多元視頻創作可能性。

目前，個人用户可訪問混元AI視頻官網直接體驗，企業級用户可通過騰訊雲申請API集成服務。

在觀察者網體驗中，發現混元圖生視頻模型的人氣火爆，實測中圖生視頻功能的任務已經“排起長隊”，需要等待接近兩個小時才能進行使用。

混元圖生視頻功能排起長隊混元官網

具體的實際操作中，可以通過上傳高達的靜態圖片，讓高達跳起“魔性”的舞步。

也可以通過上傳一輛汽車的圖片，看到汽車高速行駛起來的視頻。

混元開源技術報告顯示，混元視頻生成模型具備靈活的擴展性，圖生視頻和文生視頻在相同的數據集上開展預訓練工作。在保持超寫實畫質、流暢演繹大幅度動作、原生鏡頭切換等特性的基礎上，讓模型能夠捕捉到豐富的視覺和語義信息，並結合圖像、文本、音頻和姿態等多種輸入條件，實現對生成視頻的多維度控制。

混元視頻生成模型開源以來，一直保持較高的熱度，去年12月登頂huggingface（知名AI社區）全站趨榜第一，目前Github（知名程序平台）平台上Star數超過8.9K。多位開發者自發製作基於社區Hunyuanvideo的插件與衍生模型，積累超過900個衍生版本。更早開源的混元DiT文生圖模型，在國內外衍生模型數量多達1600多個。

目前，混元開源系列模型已經完整覆蓋文本、圖像、視頻和3D生成等多個模態，在Github累計獲得超2.3萬開發者關注和star。

本文系觀察者網獨家稿件，未經授權，不得轉載。