清華大學文生視頻專利公佈

guancha

2024-02-20

國家知識產權局網站顯示，2月2日，清華大學申請的“一種定製化多主體文生視頻方法、裝置、設備及介質”專利公佈。

專利摘要顯示，該申請提供一種定製化多主體文生視頻方法、裝置、設備及介質，涉及神經網絡技術領域，包括：獲取多個主體分別對應的主體文本表述以及主體圖像；基於多個主體分別對應的主體文本表述以及主體圖像，獲取混合文本以及組合圖像；將混合文本以及組合圖像輸入文生視頻模型，生成第二噪聲預測值，並基於第二噪聲預測值與組合圖像，獲取第二損失和第三損失；基於第一損失、第二損失與第三損失，對文生視頻模型進行優化，得到優化的文生視頻模型。該申請通過多種損失對文生視頻模型的參數進行優化，使優化的模型基於文本描述生成視頻中的圖像時，文本描述與定製化主體保持一致，且在每個主體在生成過程中的特徵不會發生混淆的同時消除合成痕跡。