一張照片就能生成視頻？連口型和聲音都能對上！_風聞

中国人工智能学会-中国人工智能学会官方账号-CAAI2019-06-30 08:44

2019-06-30

你還記得《哈利·波特》電影裏，那些會動的的照片嗎？

比如守衞着格蘭芬多學院休息室的胖夫人——

脾氣不太好的胖夫人

還有魔法界的《預言家日報》，打開報紙，新聞圖片全是會動的人物，還有紀錄片一樣可以自動播放的事件報道。

《預言家日報》

當年看電影的時候，小智就對這些細節印象深刻。沒想到這些魔法現在居然成真了！

現在，只要提供一張照片，利用神經網絡技術就能實現讓靜止的人像動起來，甚至開口説話。

而且是有情緒、有表情，口型跟聲音完全一致的那種！

比如瑪麗蓮·夢露

▼原圖

▼處理後的動效

你可能會説“夢露的影像資料那麼多，這gif有什麼好稀罕的。” 好吧，那這個怎麼樣呢——

▼原圖

▼處理後的動效

僅憑蒙娜麗莎的一張平面圖片就塑造出了立體動態的人物，這到底是如何實現的呢？

01****先讓照片動起來

研究人員從YouTube上收集了7000張名人照片以及人臉説話視頻，對機器進行訓練，使其學會識別人臉上的顯著特徵，如眼睛、嘴巴形狀、鼻樑形狀等。並使用卷積神經網絡創造出動態頭部模型****。

之後，再給這個訓練好的模型“貼”上我們想要讓它動起來的那張照片。此時，系統能夠自己找到對應的五官部分，然後針對新面部裏各個的關鍵點進行調整，最後達到自然的動態效果。

此時，即使只有一張目標照片，也能進行人臉模擬。當然，照片的數量越多，最終視頻也會越加精緻和逼真。

1張、8張、32張目標人物的照片的訓練結果

研究人員表示“儘管需要調整數千萬的參數，該系統能夠因人而異地初始化生成器和判別器參數。因此，訓練可以在僅藉助幾幅圖像的情況下快速完成”。

02****加上聲音對口型

OK，讓靜態照片動起來的操作已經完成了，現在再配上音頻就能完成了。

不過這“配音”的步驟可沒有那麼簡單。

如果只是簡單粗暴地把音頻加到做好的視頻上，結果就會變成咱們小時候看的粗糙動畫片：卡通人物不管在説啥，嘴巴永遠只有“開”“合”這兩個動作——

光看口型，你知道海綿寶寶説了什麼嗎？

小時候從來都沒質疑過人物口型為啥跟台詞對不上的朋友，請到這裏集合······

成年人的視覺對臉部細節的敏感程度比小孩子要高得多，要不然也不會出現明星因為口型對不上被觀眾逮到假唱的糗事了。

因此，在不久前舉辦的計算機視覺頂會CVPR 2019 上，這項新研究提出了一個端到端系統。在之前研究的基礎上，不僅實現了人物口型和音頻的同步，還實現了更為自然的人物面部表情，比如眨眼和眉毛動作等。

新合成視頻中人物的情緒飽滿

這才是“jpg→gif→mp4”的全過程。

03****仍有些粗糙

雖然以上的實驗成果已經非常驚豔了，但細看之下，仍可以發現不少bug。

例如，正常人説話時會有輕微的頭部運動。但實驗合成的一些人物頭部轉動時，五官和臉型會發生變形，有種説不出的怪異感。

又比如一些人物背景會發生扭曲

而圖靈測試的結果也反應，大眾並沒有那麼容易被合成的假視頻欺騙。

【什麼是圖靈測試？】

圖靈測試是由“計算機科學之父”艾倫·麥席森·圖靈提出的關於機器人的著名判斷原則。

如果説現在有一台機器人，其運算速度非常快，可以進行聽説讀寫，還能回答許多問題。那麼，我們是否就能説這台機器人具有思維能力了呢？

我們可以進行這樣的測試：將測試者與被測試的機器人隔開的，測試者通過一些裝置（如鍵盤）向被測試者提出一些問題。幾輪問答後，如果測試者能正確分辨出被測試對象中哪些是真人、哪些是機器人，那機器就沒有通過圖靈測試；反之，若測試者沒能判斷出來，那這個機器就可以被認為是有人類智能的。

在對本項目進行的圖靈測試中，66名測試志願者需要觀看 24 個視頻（12 個真實視頻，12 個合成視頻），並且將每個視頻標註為“真”或“假”。測試結果表明，平均用户標註的正確率為 52%。

總的來説，模型的動作幅度越大、速度越快，目標照片的背景元素越複雜，產生的怪異感和形變就會越嚴重；而視頻時間越長，觀眾容易發現漏洞的概率也會越大。

04****技術應用

單張或少量照片就能完成動態人像，這樣的速度和效率讓該模型更利於推廣。可以預測，未來這一系統將會被應用在遊戲、電視、電影特效行業中。

例如好萊塢的許多大型數字特效公司，利用現有技術將一位演員的面容“移植”到另一個身體上，需要花費幾個月的時間。而使用這樣的技術，可以大大縮短製作時間，節省成本。

特效電影《阿凡達》就花費了大量的後期製作時間

當然，也有不少網友表示，一些演技堪憂的流量明星這下可有救了。

此外，這一技術還可應用於特殊人物的**“復活”**。例如，在佛羅里達州的聖彼得堡，達利博物館就將著名的超現實主義畫家達利“復活”了。

在這場名為《Dalí Lives》的展覽上，展品是一個顯示屏，上面有一個按鈕，當你摁下按鈕時，屏幕裏的達利彷彿聽到了門鈴聲，會走過來和你説話，讓人感覺非常真實。

而這一展覽使用的，就是機器學習驅動的視頻編輯技術。

預測將來，這一技術還可以成為私人化定製服務，滿足客户將名人或過世的親人“復活”的需求。