陳根:當“偽造”遇上“深度”_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-09-12 07:37
文|陳根
技術盛行的時代裏,人工智能讓社會生活的一切都顯得表觀和直接,也讓偽造走向深度和長遠。
作為一種基於人工智能的人體圖像合成技術,深度偽造的起初只是程序員用於自制搞笑的“換頭”視頻的簡單想法。而當兩個深度學習的算法相互疊加,最終創造了一個複雜的系統。
人工智能的進步令這個複雜的系統用途也得以擴充。從特定用户實時匹配面部表情,並無縫切換生成換臉視頻,到其可以模仿的對象不再被限制。不論是明星政客,還是任何普通人,都可以在深度偽造技術下達到“以假亂真”的程度。
在這些應用帶來發展機遇的同時,其背後的安全隱患也開始放大。隨着深度偽造技術的越來越複雜,和越來越容易製作,深度造假正帶來一系列具有挑戰性的政策、技術和法律問題。
一開始,“深度偽造”並不叫“深度偽造”,而是作為一種人工智能合成內容技術而存在。而深度合成技術是人工智能發展到一定階段的產物,源於人工智能系統生成對抗網絡(GAN)的進步。
GAN由生成器和識別器兩個相互競爭的系統組成。建立GAN的第一步是識別所需的輸出,併為生成器創建一個培訓數據集。一旦生成器開始創建可接受的輸出內容,就可以將視頻剪輯提供給識別器進行鑑別;如果鑑別出視頻是假的,就會告訴生成器在創建下一個視頻時需要修正的地方。
根據每次的“對抗”結果,生成器會調整其製作時使用到的參數,直到鑑別器無法辨別生成作品和真跡,以此將現有圖像和視頻組合併疊加到源圖像上,終於生成合成視頻。典型的“深度合成”主要包括人臉替換、人臉再現、人臉合成以及語音合成四種形式。
人臉替換也被稱為換臉,是指將某一個人的臉部圖像(源人物)“縫合”到另外一個人的臉上(目標人物),從而覆蓋目標人物的面部。人臉再現則利用深度合成技術改變人的面部特徵,包括目標對象的嘴部、眉毛、眼睛和頭部的傾斜,從而操縱目標對象的臉部表情。

人臉合成則可以創建全新的人臉圖像,而這些隨機生成的人臉圖像很多都可以媲美真實的人臉圖像,甚至代替一些真實肖像的使用,比如廣告宣傳、用户頭像等。語音合成涉及創建特定的聲音模型,不僅可以將文字轉化成聲音,而且可以轉化為接近真人語調和節奏的聲音。
深度合成技術的走紅,是一場意外。2017年,美國新聞網站 Reddit的一個名為“deepfakes”的用户上傳了經過數字化篡改的色情視頻,即這些視頻中的成人演員的臉被替換成了電影明星的臉。此後,Reddit網站成為了分享虛假色情視頻的一個陣地。
儘管後來 Reddit網站上的 deepfake 論壇因為充斥着大量合成的色情視頻而被關閉,但 deepfake背後的人工智能技術卻引起了技術社區的廣泛興趣,開源方法和工具性的應用不斷湧現,比如,Faceswap、FakeAPP、face2face等。
而從那時起,新聞媒體就開始使用“deepfake”一詞來描述這種基於人工智能技術的合成視頻內容。於是,基於“deepfake”技術的內容和“deepfake”的語境,深度偽造由此而生。
