“篡改”視頻腳本,讓特朗普輕鬆“變臉”?AI Deepfake再升級_風聞
中国人工智能学会-中国人工智能学会官方账号-CAAI2019-06-12 08:24
導語:眾所周知,利用 Deepfake 技術可以自動生成虛假圖像,輕鬆達到以假亂真的結果。但這還不夠,隨着該技術的不斷升級,它還有更多意想不到的應用正在被挖掘。現在,一個能更加方便快捷創建虛假視頻和錯誤信息的方法出現了。
在最新的深度技術突破中,研究人員展示了一種新方法,該方法使用機器學習技術讓用户編輯視頻文本內容,來添加、刪除或更改視頻人物中的話語。
也就是説,如果你想對一段人物特寫視頻進行重新編輯,只需要對視頻所對應的文本內容進行修改,隨後人臉會根據修改的文本內容作出與之相配的動作表達。
研究人員在一段視頻講解中給出了一些例子,比如將電影《現代啓示錄》中的一段人物特寫鏡頭中的台詞“我喜歡早晨的汽油彈的氣味”更改為“我喜歡早晨的法國土司的味道。”隨着台詞的變化,系統自動會重新合成人物的臉部發聲動作,給出編輯後的視頻。
這項研究由斯坦福大學、馬克斯普朗克信息學研究所、普林斯頓大學和 Adobe 研究所的科學家共同合作完成,它表明人們能夠更輕鬆地編輯視頻人物所説的內容並製作逼真的虛假視頻。
研究人員認為,他們的方法完全朝着基於文本編輯和合成一般視聽內容的目標邁出了重要一步。
不過,該方法目前正處於研究階段,普通用户還不能使用,但市面上已經有類似的軟件。Adobe 就發佈了一個叫 VoCo 原型軟件,該方法允許用户像編輯圖片一樣輕鬆編輯語音內容。
但該系統給出的結果要更加精細。根據論文《基於文本的頭部特寫視頻編輯》(https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf)介紹,該系統的輸入包括講話的頭部特寫視頻、講話的文本和指定的編輯操作,他們的工具支持三種類型的編輯操作:
增加新單詞:編輯器在視頻中的某一點添加一個或多個連續的單詞。
重新排列現有的單詞:編輯移動一個或多個存在於視頻中的單詞。
刪除現有單詞:編輯從視頻中刪除一個或多個單詞。
為了做出虛假視頻,研究者們主要分為五個階段來處理視頻。在音位排列階段,他們將轉錄文本與視頻進行比對,然後在跟蹤重建階段,用視頻生成了一個三維參數頭部模型。每個輸入視頻完成這樣的預處理步驟,然後執行視位搜索(viseme search),在編輯器中找到音素的子序列和輸入視頻中音素的子序列之間的最佳視覺匹配。研究者們還提取了編輯位置周圍的區域作為背景序列,從中提取背景像素和姿態數據。對於每個子序列他們混合三維頭部模型的參數,然後加上背景像素,最終呈現一個真實的全畫幅視頻(full-frame video)。
(注:視覺音素 / 視素(visual phoneme/viseme)是嘴唇和麪部的姿勢或表達,其對應於特定的語音(音素),是具備可理解度的基本視覺單元。在計算機動畫中,我們可以使用視覺音素來製作虛擬角色的動作,令它們看起來像是在説話。)
當有人編輯視頻的文本內容時,系統會將所有這些收集的數據(音素、視位和 3D 臉部模型)組合在一起,以構建與文本輸入相匹配的新素材,然後將其粘貼到源視頻上以創建最終的結果。
研究人員還將他們的方法與其他對講視頻合成技術進行了比較。他們分別用 5% 、10%、50% 和 100% 的訓練數據來測試結果。使用 100% 的數據量,每幅圖像的平均 RMSE(標準誤差) 為 0.018,使用 50% 的數據量為 0.019,只使用 5%的數據量為 0.021 。
他們還用各種合成短語進行測試,發現短語長度與結果質量沒有直接關係。而組成短語的視位和音素對齊質量等其他因素會影響最終結果。
他們還嘗試將 MorphCut 應用於單詞的加法問題。MorphCut 在兩幀圖像之間產生一個大的頭部跳躍。
將檢索到的viseme序列與MorphCut拼起來生成一個新單詞
同時,他們與 Face2Face[Thiesetal.2016]方法進行了比較,他們的方法生成了高質量結果,而基於檢索的 Face2Face 方法顯示出鬼影現象,並且不穩定。
與 Face2Face 進行比較
為了定量評估基於文本的編輯系統生成的視頻質量,研究人員發起了一項基於 web 的用户測試研究,參與者有 138 名。
在向 138 名志願者進行虛假視頻的測試時,大約 60% 的參與者認為編輯過的視頻是真實的,雖然這個數據聽起來不怎麼好,但另一數據顯示,同一組內只有 80% 的參與者認為原始未經編輯的鏡頭才是合理的。(研究人員指出,這可能是因為一些人在測試前被告知他們的答案會用於視頻編輯研究,這意味着受試者已經準備好要找到虛假視頻。)
以上評估表明,他們的方法展示了令人信服的結果,但該研究也存在一定的侷限性,還有進一步優化的空間。
例如,新的合成方法需要重新計時(re-timed)的背景視頻作為輸入,但重新計時會改變動作的速度,因此眨眼和手勢可能不再與講話動作完全一致,為了減少這種影響,他們使用了比實際編輯更長的重新計時區間以修改更多原始視頻片段。
這裏的算法只能用於對特寫風格的視頻施加影響,並且這需要 40 分鐘的輸入數據。編輯過的語音似乎與源材料的差別不大,並且在最優質的虛假視頻中,研究人員要求拍攝對象錄製新的音頻以匹配這種變化,然後用 AI 生成視頻。
研究人員還指出,他們還不能改變人物説話聲音的情緒或語調,因為這樣做會產生“不可思議的結果”,例如,如果人物在説話時揮手對臉部進行遮擋會讓算法完全失效。
在未來,研究人員指出,端到端學習可以用來學習一種從文本到視聽內容的直接映射。
這些侷限性始終存在於早期研究中,不過研究人員可以保證它們能夠及時得到克服,這意味着任何人都可以在沒有技術培訓的情況下使用系統來編輯人們在視頻中所説的內容。
這項技術的潛在危害非常令人擔憂,該領域的研究人員經常因未能考慮可能濫用其研究而受到批評。但參與這一特定項目的科學家表示,他們已經考慮過這些問題。
在這篇論文附帶的博客文章中,他們寫道:“雖然圖像和視頻處理的方法與媒介本身一樣久遠,但當其應用於思想和意圖等權威證據的交流方式時,濫用的風險會更高。“他們也承認,不法分子可能會使用此類技術偽造個人陳述並用於誹謗知名人士。
為了防止人們混淆原始視頻和虛假視頻,他們給出的解決方案是人工智能編輯的視頻應該通過使用水印或通過上下文直接清楚地呈現(例如觀眾理解他們正在觀看的是虛構電影)。
但顯然,The Verge 指出,水印很容易被消除,而且網絡媒體在傳播會去掉上下文場景描述,虛假事物並不需要完美無瑕。很多虛假的新聞文章很容易被揭穿,但這並不能阻止它們的傳播,尤其是對於那些想要相信這種符合他們先入之見的謊言的社區。
當然,這樣的技術也有許多有益的用途,比如對電影和電視行業有很大的幫助,可以讓他們在不重新錄製鏡頭的情況下修復讀錯的台詞,並幫助不同語言的演員進行無縫配音。不過,與潛在的濫用等威脅相比,這些益處好像並不足以使人們信任這項技術,反而,它在技術上的突破更大,人們會更加感到不安。
相關來源:
https://www.theverge.com/2019/6/10/18659432/deepfake-ai-fakes-tech-edit-video-by-typing-new-words
https://www.ohadf.com/projects/text-based-editing/
https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf