一張照片就能生成視頻?連口型和聲音都能對上!_風聞
中国人工智能学会-中国人工智能学会官方账号-CAAI2019-06-30 08:44
你還記得《哈利·波特》電影裏,那些會動的的照片嗎?
比如守衞着格蘭芬多學院休息室的胖夫人——

脾氣不太好的胖夫人
還有魔法界的《預言家日報》,打開報紙,新聞圖片全是會動的人物,還有紀錄片一樣可以自動播放的事件報道。

《預言家日報》
當年看電影的時候,小智就對這些細節印象深刻。沒想到這些魔法現在居然成真了!
現在,只要提供一張照片,利用神經網絡技術就能實現讓靜止的人像動起來,甚至開口説話。
而且是有情緒、有表情,口型跟聲音完全一致的那種!
比如瑪麗蓮·夢露
▼原圖
▼處理後的動效
你可能會説“夢露的影像資料那麼多,這gif有什麼好稀罕的。” 好吧,那這個怎麼樣呢——
▼原圖
▼處理後的動效
僅憑蒙娜麗莎的一張平面圖片就塑造出了立體動態的人物,這到底是如何實現的呢?
01****先讓照片動起來
研究人員從YouTube上收集了7000張名人照片以及人臉説話視頻,對機器進行訓練,使其學會識別人臉上的顯著特徵,如眼睛、嘴巴形狀、鼻樑形狀等。並使用卷積神經網絡創造出動態頭部模型****。
之後,再給這個訓練好的模型“貼”上我們想要讓它動起來的那張照片。此時,系統能夠自己找到對應的五官部分,然後針對新面部裏各個的關鍵點進行調整,最後達到自然的動態效果。
此時,即使只有一張目標照片,也能進行人臉模擬。當然,照片的數量越多,最終視頻也會越加精緻和逼真。
1張、8張、32張目標人物的照片的訓練結果
研究人員表示“儘管需要調整數千萬的參數,該系統能夠因人而異地初始化生成器和判別器參數。因此,訓練可以在僅藉助幾幅圖像的情況下快速完成”。
02****加上聲音對口型
OK,讓靜態照片動起來的操作已經完成了,現在再配上音頻就能完成了。
不過這“配音”的步驟可沒有那麼簡單。
如果只是簡單粗暴地把音頻加到做好的視頻上,結果就會變成咱們小時候看的粗糙動畫片:卡通人物不管在説啥,嘴巴永遠只有“開”“合”這兩個動作——
光看口型,你知道海綿寶寶説了什麼嗎?
小時候從來都沒質疑過人物口型為啥跟台詞對不上的朋友,請到這裏集合······
成年人的視覺對臉部細節的敏感程度比小孩子要高得多,要不然也不會出現明星因為口型對不上被觀眾逮到假唱的糗事了。
因此,在不久前舉辦的計算機視覺頂會CVPR 2019 上,這項新研究提出了一個端到端系統。在之前研究的基礎上,不僅實現了人物口型和音頻的同步,還實現了更為自然的人物面部表情,比如眨眼和眉毛動作等。

新合成視頻中人物的情緒飽滿
這才是“jpg→gif→mp4”的全過程。
03****仍有些粗糙
雖然以上的實驗成果已經非常驚豔了,但細看之下,仍可以發現不少bug。
例如,正常人説話時會有輕微的頭部運動。但實驗合成的一些人物頭部轉動時,五官和臉型會發生變形,有種説不出的怪異感。
又比如一些人物背景會發生扭曲
而圖靈測試的結果也反應,大眾並沒有那麼容易被合成的假視頻欺騙。
【什麼是圖靈測試?】
圖靈測試是由“計算機科學之父”艾倫·麥席森·圖靈提出的關於機器人的著名判斷原則。
如果説現在有一台機器人,其運算速度非常快,可以進行聽説讀寫,還能回答許多問題。那麼,我們是否就能説這台機器人具有思維能力了呢?
我們可以進行這樣的測試:將測試者與被測試的機器人隔開的,測試者通過一些裝置(如鍵盤)向被測試者提出一些問題。幾輪問答後,如果測試者能正確分辨出被測試對象中哪些是真人、哪些是機器人,那機器就沒有通過圖靈測試;反之,若測試者沒能判斷出來,那這個機器就可以被認為是有人類智能的。
在對本項目進行的圖靈測試中,66名測試志願者需要觀看 24 個視頻(12 個真實視頻,12 個合成視頻),並且將每個視頻標註為“真”或“假”。測試結果表明,平均用户標註的正確率為 52%。
總的來説,模型的動作幅度越大、速度越快,目標照片的背景元素越複雜,產生的怪異感和形變就會越嚴重;而視頻時間越長,觀眾容易發現漏洞的概率也會越大。
04****技術應用
單張或少量照片就能完成動態人像,這樣的速度和效率讓該模型更利於推廣。可以預測,未來這一系統將會被應用在遊戲、電視、電影特效行業中。
例如好萊塢的許多大型數字特效公司,利用現有技術將一位演員的面容“移植”到另一個身體上,需要花費幾個月的時間。而使用這樣的技術,可以大大縮短製作時間,節省成本。
特效電影《阿凡達》就花費了大量的後期製作時間
當然,也有不少網友表示,一些演技堪憂的流量明星這下可有救了。
此外,這一技術還可應用於特殊人物的**“復活”**。例如,在佛羅里達州的聖彼得堡,達利博物館就將著名的超現實主義畫家達利“復活”了。
在這場名為《Dalí Lives》的展覽上,展品是一個顯示屏,上面有一個按鈕,當你摁下按鈕時,屏幕裏的達利彷彿聽到了門鈴聲,會走過來和你説話,讓人感覺非常真實。
而這一展覽使用的,就是機器學習驅動的視頻編輯技術。
預測將來,這一技術還可以成為私人化定製服務,滿足客户將名人或過世的親人“復活”的需求。