AI vs AI:以假亂真的深度偽造,如何識破?_風聞
中科院之声-中国科学院官方账号-2021-06-17 10:23
編者按: 智顯未來,洞見新知。中科院之聲與中國科學院自動化研究所聯合開設“智言智語”科普專欄,為你介紹人工智能相關知識與故事,從最新成果到背後趣聞,帶你徜徉AI空間,看人工智能如何喚醒萬物,讓世界變得更美好 。
近年來,深度生成模型的飛速發展催生了Deepfake、人臉融合等一系列成熟的人臉深度偽造技術。隨着Zao等娛樂應用的推出,人臉偽造技術的成本快速降低並得到迅速推廣。人臉偽造技術潛在的濫用隱患和相應的檢測技術引發了社會各界的廣泛討論。逼真的偽造圖像,使人們很難僅憑RGB圖像判斷真偽。

先分解,再尋找
一些相關研究利用圖像頻域分析技術,發現偽造過程中的上採樣會導致圖像頻譜中某些部分被特定的重複模式所替代;同時,他們認為現有的偽造算法只關注圖像的像素級重建而很難兼顧對於人臉圖像各組成成分的合理重建。因此,研究人員提出,在對偽造圖像進行某種方式的分解之後,所得到的解構成分中應包含更多有助於偽造檢測的線索,並基於此提出利用頻域信號分解的方法找到包含偽造線索最多的頻段以檢測人臉偽造圖像。然而,由於拍攝器材、拍攝環境、壓縮算法、存儲方式等的不同,不同數據之間存在巨大的分佈偏差,很難事先指定好包含最多偽造痕跡的頻段。
為解決該難題,中國科學院自動化研究所朱翔昱副研究員和雷震研究員等人提出了基於三維解構的人臉偽造檢測方法,通過對人臉圖像進行圖形學分解,找到包含最多偽造線索的圖形學分量,提升了模型對多種偽造方式的魯棒性。
那麼,他們究竟是如何找出“偽造人臉”的呢?
三維解構人臉圖像,哪裏有最多的偽造線索?
基於圖像解構的偽造檢測核心在於如何正確地分解圖像以及如何選擇合適的解構成分。
根據計算機圖形學對人臉成像的相關研究,我們將一張人臉圖像視為其對應的三維人臉結構、紋理和光照環境交互的產物,通過三維可變模型和計算機圖形學的渲染技術模擬一張人臉圖像的生成過程,並將人臉解構為5個組成部分(見圖1):
3D人臉結構(3D geometry)
共有紋理(common texture),指人類羣體共有的紋理模式。
個性紋理(identity texture),指某一人臉的特定紋理模式。
環境光照(ambient light)
直射光照(direct light)。

圖1 基於計算機圖形學將人臉圖像解構為5部分
通過觀察目前主流的人臉偽造數據,偽造數據中很少存在不合理的人臉拓撲結構和奇異膚色,因此可以認為目前的偽造方法能夠有效重建人臉的3D結構、共有紋理和環境光照,這些分量在偽造檢測時可以不再考慮。
然而,考慮到不同人臉之間明顯而複雜的個性紋理差異,現有偽造方法很難實現對這一成分的完美重建。同時,很多在強直射光環境下的偽造圖像中也存在明顯的偽造痕跡(圖2)。因此,個性紋理分量和直射光分量藴含豐富的偽造線索,是偽造檢測的兩個重要成分。

圖2 強直射光場景下的真實圖像(上)和偽造圖像(下)
機器認可的人臉細節包括哪些?
基於這些假設,研究人員設計了一系列實驗來研究和驗證對5種人臉成分的合理選擇。
1)是否包含三維人臉結構;
2)同時考慮環境光照、直射光照、共有紋理和個性紋理;
3)只考慮環境光照和共有紋理;
4)只考慮直射光照和個性紋理;
5)只考慮個性紋理。
通過這一系列剝離實驗,確定個性紋理和直射光照的組合更適合用於人臉偽造檢測,並將這一組合稱為人臉細節(facial detail)。
在深度學習模型設計方面,基於多模態學習的思想,團隊提出一種雙流網絡Forgery-Detection-with-Facial-Detail Net(FD2Net),對人臉圖像和人臉細節兩種模態中隱含的偽造痕跡同時進行挖掘,並引入監督式注意力模型指導檢測網絡關注人臉細節中的偽造痕跡。與其他相關工作中的注意力模型不同的是,團隊採用人臉細節上的差異作為訓練注意力模型的監督信號。
該方法在人臉偽造檢測數據庫Faceforensics++(FF++)、The DeepFake Detection dataset(DFD)和Deepfake detection challenge dataset (DFDC)上均取得較好的結果。相比現有方法,本方法在跨數據集和跨偽造方法的泛化性能上也有明顯提升。
體驗環節:你能分辨出下面的人臉對比圖片中哪張是真的,哪張是偽造的嗎?
點擊圖片可辨真假。
參考文獻:
Zhu X, Wang H, Fei H, et al. Face Forgery Detection by 3D Decomposition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
來源:中國科學院自動化研究所