找不出破綻!斯坦福等新研究:隨意輸入文本,改變視頻人物對白,逼真到讓作者害怕_風聞
量子位-量子位官方账号-2019-06-06 18:54
栗子 安妮 發自 凹非寺
公眾號 QbitAI
細思極恐的事情還是來了。
斯坦福和普林斯頓大學等最新研究:給定任意文本,就能隨意改變一段視頻里人物説的話。
並且,改動關鍵詞後人物口型還能對得奇準無比,絲毫看不出篡改的痕跡。
蘋果今日收盤價191塊4,改成182塊2你也看不出來。
讓新垣結衣向你表白,讓石原里美大聲喊出你的名字,甚至隨便根據某個人的視頻偽造個人陳述……現在都不在話下。
手握這項技術,在視頻中讓你怎麼説你就怎麼説,讓你説什麼你就得説什麼,誰也看不出來這是假的。
有視頻有真相?現在已經徹底過去了。
可能因為技術過於強大真是,研究人員還在項目主頁上特意聲明,這項技術一旦被濫用會造成可怕的後果,公佈技術只是用於向公眾科普,還呼籲相關部門建立相關法律……
這項研究的論文中選了計算機圖形學頂會SIGGRAPH 2019。
來看全部效果展示↓↓↓
天衣無縫P視頻
這個技術可以完成對視頻多種類型的篡改。
功能1:改變人物台詞
改變視頻裏的關鍵詞,用假信息替換真內容,後果不要太可怕。
開頭展示的視頻就是改動後的效果。
功能2:改變人物嗓音
就算用合成的嗓音改造視頻主角,也可以把人物口型調的宛如原生。
功能3:隨意刪除信息
即使你刪掉視頻中的部分關鍵詞,也可以保持語音和圖像的連貫。
有些話你説了麼?你覺得説了,但看起來就是沒説~
功能4:合進視頻背景
AI將視頻里人物的內容補充進完整視頻:

功能5:連貫視頻
此外,這項技術還能把磕磕巴巴的演講/對話等視頻,拆開後重新拼接,變成流暢畫面。
結巴的救星、鏡頭恐懼患者的福音就是它了。
研究人員進行了不同維度的測評,發現這項技術的效果在同類產品中領先了不少。
將此方法與深度視頻人像(Deep Video Portraits,DVP)方法輸出的人物渲染圖像相比,新技術終於看起來不那麼詭異了。
比如牙齒的合成效果:
比如衣服細節的合成效果:
與傳統刪除視頻場景的MorphCut技術對比,MorphCut在第2、3、4幀的場景刪除任務中失敗了,而新技術可以成功切除:
與Face2Face的面部改造技術相比,新技術避免了畫面中出現的“鬼影”,合成畫面也更加高清、穩定。
最後,研究人員還邀請了138位志願者,來評估這種方法的真實性如何。
這些志願者去判別“這個視頻是不是真實”,如果同意真實則給5分,完全確信是假的就給1分,結果顯示,這項技術在很多時候,已經讓喪失了對視頻真假的準確判斷。
AI對口型
自動合成某個人的語音,已經有許多算法可以做到。這裏,團隊使用了原本視頻主角的錄音,而在不需要原聲的部分,用了Mac自帶的語音合成工具。暫不贅述。
這項研究最閃亮的部分,是流暢自然的“對口型”。
左手拿着視頻,右手拿着文本,團隊使用了五步法:
第一步:視頻和文本要對齊
這裏需要的是非常細緻的對齊,精確到音位 (Phoneme) 。
音位是什麼?那是人類語言裏能夠區分語義的最小聲音單位,分成元音和輔音。
找到特定的元音輔音,就能組成你要的單詞,或者句子。
每種音位,又有各自對應的口型。所以在對口型任務裏,視頻和文本之間的精準對齊很有必要。
團隊用的對齊工具叫P2FA:除了分辨出各種音位,還會把每個音位開始和停止的時間標記出來。
當然,如果手頭數據只有視頻沒有文本的話,也可以用自動語音轉錄工具來生成文本,這類應用已經很常見了。
第二步:3D人臉追蹤和重構
要為視頻的每一幀,註冊一個3D參數人臉模型 (3D Parametric Face Model) 。
模型裏的各種參數,會在後面的步驟中混合 (Blending) ,發生奇妙的反應:
比如,用某一幀的面部表情,搭配另一幀的頭部姿勢/朝向,組成新的一幀。
為了獲得3D參數模型,團隊從前輩的研究裏借鑑了單目的、基於模型的人臉重構算法 (Monocular Model-Based Face Reconstruction) 。
這類算法,可以把頭部姿勢參數化,把臉部幾何參數化,還有臉部的反射率、表情,以及場景中的光線,都可以參數化。
於是,視頻的每一幀都獲得了257個參數的向量。
第三步:唇形搜索
剛才的精細對齊,現在派上用場了。
就像上文提到的,每種音位對應了各自的唇形。但不同音位也可以有相似的唇形,可以通用。
比如,想把蜘蛛 (Spider) 改成狐狸 (Fox) ,原本需要“f”的唇形和“ox”的唇形。
不過,“v”和“f”從視覺上看並沒有太大差別。如果,視頻裏講過毒蛇 (Viper) ,只要把“v”的唇形提取出來,和“ox”的唇形拼到一起,也能組成“fox”的動作。
根據文本,可以從視頻裏面,把需要拼接的片段,從視頻裏面抽出來。
第四步:重新定時,參數混合
可四下提取出來的片段,還不能直接拼到一起。有兩個重要的問題需要解決:
一是,音位視頻裏提取的音位,可能動作滿足要求,但時長就不一定跟新台詞吻合了。
二是,兩個需要連在一起的片段,可能在原始視頻裏相距很遠,説話人頭部的位置、姿勢都會發生變化,直接拼起來就會不連貫了 (下圖右) 。

想生成連貫自然的視頻,前面做好的3D人臉參數模型,就是這裏的大招:
把頭部姿勢、面部表情、反射率、場景光線等等參數,都放在一個參數空間裏面去混合 (Blend) 。
這個過程,包括給各個片段重新設定時長,也包括把頭部動作變連貫。
除此之外,為了避免攝像頭移位帶來的背景變化,還需要選擇一個背景序列。
這樣,一個流暢的背景視頻就做好了。
之所以叫“背景視頻”,是因為在這個步驟裏,嘴部動作被提前摳掉了,所以還有下一步。
第五步,臉部渲染
最後一步,訓練一個循環網絡 (RNN) 作為GAN的生成器,加上一個時間空間判別器:
讓GAN把嘴部動作 (下半張臉) 和背景視頻,無縫混合到一起。

到這裏,跟着新台詞對口型的視頻,就愉快地生成了。
作者介紹
這篇研究的作者共有10人,都帶着閃閃發光的履歷。
他們來自較為知名的機構,包括斯坦福大學的Ohad Fried、Michael Zollhöfer、Maneesh Agrawala,普林斯頓大學的dam Finkelstein、Kyle Genova,馬克斯·普朗克信息學研究所的Ayush Tewari、 Christian Theobalt和Adobe的Eli Shechtman、Zeyu Jin,此外還有DAN B GOLDMAN。
一作Ohad Fried為現在為斯坦福大學的博士後,與印度裔教授Maneesh Agrawala合作,主要研究計算機圖形學、計算機視覺和人機交互。
Fried小哥本科和研究生畢業於希伯來大學,博士去普林斯頓進行深造,隨後在谷歌、Adobe等實習過。
二作Ayush Tewari目前是馬克斯·普朗克信息學研究所博士三年級在讀,此前有多篇論文被頂會收錄,包括一篇ECCV 18、兩篇CVPR 18和一篇ICCV 17。
作者團隊中還有一位華裔成員,是來自Adobe的研究科學家ZEYU JIN。
ZEYU JIN的個人主頁顯示, ZEYU主要研究方向是語音和音樂合成,視頻中用到的音頻處理軟件Adobe Project VoCo就是ZEYU主導的項目。
技術“太嚇人”
最後,在這個項目的主頁地址,裏面還有研究人員的專門聲明:
這個基於文本的視頻編輯方法,為更好的電影后期編輯打下了基礎。
原本,電影裏的對話要重新定時或者修改,需要繁瑣的手動工作。但現在AI可以依靠文本,更好地調整視頻裏的圖像和音頻。
除了影視作品,技術也可以用於教學視頻,或者給兒童講故事的應用。
但這種技術,也有被濫用的隱患。行為不良的人可能用這樣的方法來來偽造個人陳述,誹謗知名人士。
所以,視頻中要有明顯證據表明它是合成的,這一點至關重要。比如在視頻裏直接陳述,或者加入水印標明這一點。
並且,技術社區應該繼續發開發識別假視頻的技術,在減少濫用的同時,為有創造性的合法使用提供空間。
最後,我們認為有必要進行強有力的公開討論,建立適當的法規,平衡這類工具的濫用風險與創造力的重要性。
他們強調,這項技術一旦被濫用會造成可怕的後果。
到底多可怕?不光顛覆一行一業,也對現有的倫理和法律提出新挑戰,隨便舉幾例:
在deepfake剛剛興起的時候,就有不少人評論稱,娛樂行業,靠臉吃飯的流量小生,使用好這項技術,結合換臉AI deepfake和語音合成,真的就能靠臉吃飯。
台詞功力?表情演技?都不重要,甚至有個替身方便換臉就好。
現在,利用這一技術篡改的人物口型幾乎一般人難辨真假,如果有人借新聞主播之口製造一段假新聞,就可能引起大眾的恐慌。
在安防監控領域,視頻裏的人説了什麼、做了什麼,真的就可信嗎?這項技術可怖不在於讓視頻中的人和事“從有變無”,而是有能力“無中生有”。
AI技術進展太快,現有倫理道德和法律法規,是時候重新考量了。
你説呢?
在量子位公眾號回覆“無破綻”,可查看完整視頻展示。
最後,附上論文傳送門
論文Text-based Editing of Talking-head Video地址:
https://arxiv.org/abs/1906.01524
— 完 —