Stable Video Diffusion:從靜態圖片到影片的AI新突破_風聞
科闻社-科闻社官方账号-天助自助者11分钟前

由人工智能初創公司Stability AI推出的全新AI模型,Stable Video Diffusion,引起了廣泛關注。這款模型基於之前發佈的Stable Diffusion文本到圖像AI模型,不同之處在於它能夠將靜態圖片轉化為高質量影片。
目前,Stable Video Diffusion處於研究預覽階段,用户需同意特定使用條款,包括預期應用(如教育、創意工具、設計和其他藝術過程等)以及非預期用途(如對人或事件的真實表達)。該模型提供兩種版本,分別是SVD和SVD-XT。SVD能夠將靜態圖像轉為14幀576×1024的影片,而SVD-XT在相同架構下將幀數提高到24,兩者均可以每秒3到30幀的速度生成影片。
然而,這項技術並非沒有侷限性。Stable Video Diffusion無法生成靜態或慢動作影片,無法通過文字進行控制,無法清晰渲染文字,並且在生成人臉和人物方面存在一些問題。此外,模型的發佈也引發了一些擔憂,尤其是其潛在濫用的風險。模型似乎缺乏內建的內容過濾器,可能導致製作不當內容的風險。
Stability AI表示,儘管模型在某些方面存在限制,但具有很高的擴展性,可以適應生成物體360度圖等多種用例。公司計劃推出一系列基於SVD和SVD-XT的新模型,並將文字提示集成到網絡的“文字到影片”工具中。最終目標似乎是商業化,潛在應用領域包括廣告、教育、娛樂等。
Stable Video Diffusion技術層面深度解析
Stable Video Diffusion被定位為一種高分辨率的視頻潛在擴散模型,達到了文本到視頻或圖像到視頻的最先進水平。該模型通過插入時間層並在小型高質量視頻數據集上進行微調,實現了從2D圖像合成訓練的潛在擴散模型向生成視頻模型的轉變。
成功訓練Stable Video Diffusion包括三個關鍵階段:圖像預訓練、視頻預訓練數據集和高質量微調。在圖像預訓練階段,模型建立在Stable Diffusion 2.1的基礎上,為視頻模型提供了強大的視覺表示。視頻預訓練數據集依賴於人類偏好作為信號,創建了包含580M對帶註釋視頻片段的大型視頻數據集。
在高質量微調階段,Stability AI對三個模型進行了微調,分析了視頻預訓練對最終階段的影響。模型的成功訓練為下游任務提供了強大的運動表徵,具有廣泛的應用前景。
然而,Stable Video Diffusion目前尚未適用於現實世界或直接的商業應用,Stability AI計劃根據用户對安全和質量的反饋繼續改進模型。儘管模型仍處於早期階段,但它為Stability AI提供了一個多模態產品組合,涵蓋圖像、語言、音頻、三維和代碼等多個領域,展示了公司提升AI技術的決心。
*免責聲明:以上內容整理自網絡,僅供交流學習之用。如有內容、版權問題,請留言與我們聯繫進行刪除。