夸克AI實驗室與浙大聯合開源OmniAvatar:音頻驅動全身視頻生成新突破
夏峰琳

近日,夸克AI技術團隊與浙江大學強強聯手,共同開源了一項創新成果——OmniAvata,這是一款領先的音頻驅動全身視頻生成模型,將為視頻生成領域帶來了革命性的變化。
傳統上,音頻驅動人體運動的技術多集中於面部運動,缺乏全身驅動能力,且難以進行精確控制。而OmniAvatar的出現,徹底改變了這一現狀。只需要輸入一張圖片和一段音頻,OmniAvatar即可生成相應視頻,且顯著提升了畫面中人物的唇形同步細節和全身動作的流暢性。不僅如此,該模型還可通過提示詞進一步精準控制人物姿勢、情緒、場景等要素。
此外,長視頻連續生成是音頻驅動視頻生成的難點,也是一項關鍵挑戰。為此,OmniAvatar通過參考圖像嵌入策略和幀重疊技術,確保了視頻的連貫性和人物身份的一致性。
本次突破不僅體現在產品層面,OmniAvatar的技術革新同樣值得關注。團隊提出了一種基於像素的音頻嵌入策略,使音頻特徵可以直接在模型的潛在空間中以像素級的方式融入,從而生成更協調、更自然的身體動作來匹配音頻。同時,採用多層級音頻嵌入策略,將音頻信息嵌入到DiT模塊的不同階段中,確保模型在不同層次上保持獨立的學習路徑。
為了解決完整訓練和僅微調特定層所帶來的問題,團隊還提出了一種基於LoRA的平衡微調策略。該策略使用LoRA策略高效地適應模型,使模型能夠在不改變底層模型容量的情況下學習音頻特徵,從而兼顧了視頻質量與細節。
OmniAvatar是團隊在多模態視頻生成上的初步嘗試,並在實驗數據集上得到了初步驗證,但尚未達到產品級應用水平。未來,團隊還將在複雜指令處理能力、多角色交互等方面進一步探索,擴大模型在更多場景中的應用。
本文系觀察者網獨家稿件,未經授權,不得轉載。