陳根:從深度合成到深度偽造,一場關於真實的博弈_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-01-27 09:48
文/陳根
技術盛行的時代裏,人工智能讓社會生活的一切都顯得表觀和直接,卻讓偽造走向深度和長遠。
**作為一種基於人工智能的人體圖像合成技術,深度偽造的起初只是程序員用於自制搞笑的“換頭”視頻的簡單想法。但是,**兩個深度學習的算法相互疊加,最終創造了一個複雜的系統。
人工智能的進步令這個複雜的系統用途也得以擴充。從特定用户實時匹配面部表情,並無縫切換生成換臉視頻,到其可以模仿的對象不再被限制。不論是明星政客,還是任何普通人,都可以在深度偽造技術下達到“以假亂真”的程度。
在這些應用帶來發展機遇的同時,其背後的安全隱患也開始被放大。**隨着深度偽造技術發展的愈發複雜,其****製作卻越來越簡單。可以説,**深度造假正帶來一系列具有挑戰性的政策、技術和法律問題。
人工智能重塑了人的認知,而人作為人工智能的開發者也將固有的偏見傳遞給了技術。更重要的是,人們對這一切似乎並無察覺。在“娛樂”的外衣下,即便察覺,也無計可施。
從深度合成到深度偽造
一開始,“深度偽造”並不叫“深度偽造”,而是作為一種人工智能合成內容技術而存在。而深度合成****技術是人工智能發展到一定階段的產物,源於人工智能系統生成對抗網絡(GAN)的進步。
GAN由生成器和識別器兩個相互競爭的系統組成。建立GAN的第一步是識別所需的輸出,併為生成器創建一個培訓數據集。一旦生成器開始創建可接受的輸出內容,就可以將視頻剪輯提供給識別器進行鑑別。如果鑑別出視頻是假的,就會告訴生成器在創建下一個視頻時需要修正的地方。
根據每次的“對抗”結果,生成器會調整其製作時使用到的參數,直到鑑別器無法辨別生成作品和真跡,以此將現有圖像和視頻組合併疊加到源圖像上,終於生成合成視頻。
典型的**“深度合成”主要包括人臉替換、人臉再現、人臉合成以及語音合成四種形式****。**
人臉替換也被稱為換臉,是指將某一個人的臉部圖像(源人物)“縫合”到另外一個人的臉上(目標人物),從而覆蓋目標人物的面部。
人臉再現則利用深度合成技術改變人的面部特徵,包括目標對象的嘴部、眉毛、眼睛和頭部的傾斜,從而操縱目標對象的臉部表情。人臉再現不同於人臉替換,前者側重於改變某個人的臉部表情,從而讓其看起來在説他們從未説過的話。
人臉合成可以創建全新的人臉圖像,而這些隨機生成的人臉圖像很多都可以媲美真實的人臉圖像,甚至代替一些真實肖像的使用,比如廣告宣傳、用户頭像等。
語音合成涉及創建特定的聲音模型,不僅可以將文字轉化成聲音,而且可以轉化為接近真人語調和節奏的聲音。加拿大的語音合成系統 RealTalk,就與以往基於語音輸入學習人聲的系統不同,它可以僅基於文本輸入生成完美逼近真人的聲音。
深度合成技術的走紅,卻是一場意外。2017年,美國新聞網站 Reddit的一個名為“deepfakes”的用户上傳了經過數字化篡改的色情視頻,即這些視頻中的成人演員的臉被替換成了電影明星的臉。此後,Reddit網站成為了分享虛假色情視頻的一個陣地。
儘管後來 Reddit網站上的 deepfake 論壇因為充斥着大量合成的色情視頻而被關閉,但deepfake背後的人工智能技術卻引起了技術社區的廣泛興趣,開源方法和工具性的應用不斷湧現,比如,Faceswap、FakeAPP、face2face等。
**而從那時起,新聞媒體就開始使用“deepfake”一詞來描述這種基於人工智能技術的合成視頻內容。**於是,基於“deepfake”技術的內容和“deepfake”的語境,深度偽造由此而生。
真實的消解,信任的崩壞
人工智能重塑人類的認知,而人類作為人工智能的開發者也將固有的偏見傳遞給了技術。**技術並非中立,它復刻且放大了人類的偏好,反映並強化了潛藏的社會風險。**潘多拉的魔盒一旦打開,將會帶來意想不到的傷害和威力。
深度偽造出現前,視頻換臉技術最早應用於電影領域,需要相對較高的技術和資金。而2017年以來,該技術在“GitHub”的開源軟件湧現。其開發技術獲取成本大大降低,並且能夠被不具備專業知識的普通人利用並輕易製作。
製造視頻並不需要很高的技巧,機器學習算法與面部映射軟件相結合,偽造內容來劫持一個人的聲音、面孔和身體等身份信息變得廉價而容易,普通大眾一鍵便可製造想要的視頻。
**偽造視頻等的泛濫,帶來的第一個嚴重後果,就是對於信息的真實性形成的****嚴峻挑戰。**自從攝影術、視頻、射線掃描技術出現以來,視覺文本的客觀性就在法律、新聞以及其他社會領域被慢慢建立起來,成為真相的存在,或者説,是建構真相的最有力證據。“眼見為實”成為這一認識論權威的最通俗表達。在這個意義上,視覺客觀性產自一種特定的專業權威體制。
**然而,深度造假的技術優勢和遊獵特徵,使得這一專業權威體制遭遇前所未有的挑戰。**藉助這一體制生產的視覺文本,深度造假者替換了不同乃至相反的文本內容和意涵,造成了文本的自我顛覆,也就從根本上顛覆了這一客觀性或者真相的生產體制。
PS 發明後,有圖不再有真相。而深度偽造技術的出現,則讓視頻也開始變得鏡花水月了起來:人們普遍認為視頻可以擔當“實錘”,而現在這把實錘竟可憑空製造,對於本來就假消息滿天飛的互聯網來説,這無疑會造成進一步的信任崩壞。
深度偽造技術被運用在政治領域,其破壞政府和政治進程的穩定****帶來的傷害尤為長久和深刻。 可以説,深度造假不僅是一種技術迷思和技術景觀,而且是一個充滿變動的權力場域。事實上,深度造假之所以被政治和社會領域所關注,恰恰是由於精確換臉對這些領域中真相的認識論的進一步瓦解,以及造成的有關傳播失序的道德恐慌。
惡意的行為者偽造證據,助長了虛假指控和虛假敍述。比如,通過對候選人發表的原有言語進行微妙改變,使其品格、健康狀況和心理健康受到質疑,而大多數觀眾卻完全不知道其中的門道。
“深度偽造”技術還可用於創建全新的虛擬內容,包括有爭議的發言或仇恨言論,目的是操縱政治分歧議題,甚至是煽動暴力。
此外,深度偽造的泛濫進一步增加侵犯肖像權和隱私權****的可能,沒人願意自己的臉龐出現在莫名其妙的視頻當中。深度偽造技術最初就是被應用於色情行業,如今,這一應用對肖像權和隱私的侵害隨着深度偽造向着廉價造假轉化仍然在放大。
於是,藉助一些低價乃至免費的軟件,消費者無需專業知識和技術能力,即可通過終端實現調整速度、攝像頭效果、更換背景、實現換臉等操作。這在一定程度上成為了色情視頻濫觴的源頭。
比如,2019年出現的一鍵生成裸照軟件DeepNude,只要輸入一張完整的女性圖片就可自動生成相應的裸照。受害者通常沒有追索權,並且,照片上傳之後難再刪除。這種輕易生成的色情視頻將很大程度上損害女性的工作前途、人際關係、名譽和心理健康,造成污名化女性、色情報復的惡果,使女性暴露在某種集體監視之中。
深度偽造軟件收集的用户照片,以及眨眼、搖頭等動態行為信息,都是用户不可更改的敏感信息,一旦被非法使用,後果不堪設想。2019 年 3 月份,《華爾街日報》報道,有犯罪分子使用深度偽造技術成功模仿了英國某能源公司在德國母公司 CEO 的聲音,詐騙了220 000 歐元(約1 730 806人民幣),其破壞性可見一斑。
關於真實的博弈
我們並不否認深度偽造技術為社會帶來的更多可能性。
短期內,深度偽造技術已經作用於影視、娛樂和社交等諸多領域,它們或是被用於升級傳統的音視頻處理或後期技術,帶來更好的影音體驗,或是被用來進一步打破語言障礙,優化社交體驗。
中長期來看,深度偽造技術既可以基於其深度仿真的特徵,超越時空限制,加深人們與虛擬世界的交互,也可以基於其合成性,創造一些超越真實世界的“素材”,比如合成數據。
**但在深度偽造帶來的危機逼近的當前,回應深度偽造對社會真相的消解,彌補信任的崩壞,並對這項技術進行治理已經不可忽視。**遺憾的是,迄今為止,人們在應對深度偽造技術方面的表現並不理想。
事實上,人們並非沒有試圖通過技術手段遏制深度造假的泛濫。2019年,斯坦福大學研究員Tom Van de Weghe聯合計算機、新聞等行業的專家,成立了深度造假研究小組,以提升公眾對這一現象的認知度,設計深度造假的識別應對方案。**然而,****技術發展速度往往高於破解速度。**隨着鑑別器在識別假視頻方面做得越來越好,生成器在創建假視頻方面也做得越來越好。
理論上,只要給GAN當前掌握的所有鑑證技術,它就能通過學習進行自我進化,規避鑑證監測。攻擊會被防禦反擊,反過來又被更復雜的攻擊所抵消。可以預見,未來,深度偽造與鑑別深度偽造將會在這種“道高一尺魔高一丈”的反覆中博弈下去。
**此外,迄今為止,立法都滯後於深度偽造技術的發展,並存在一定的灰色地帶。**深度偽造基於公開照片的生成,這令其很難真正被發現。由於所有的照片都是由人工智能系統從零開始創建,任何的照片都可以不受限地用於任何目的,而不用擔心版權、分發權、侵權賠償和版税的問題。因此,這也帶來了深度偽造照片或視頻的版權歸屬問題。
一旦被發現,誰又有權利刪除數據?違法者或侵權者的數據是否擁有同樣的權利?此外,當平台發現疑似深度偽造視頻時,它是否能簡單刪除以規避責任,這種行為又是否會阻礙傳播自由?
在注意力經濟興起**,高度分裂的社會背景下,與深度偽造的博弈是一個有關真實的遊戲**。進入人工智能為技術基礎的深度後真相時代,深度偽造進一步用超越人類識別力的技術,模糊了真與假的界限,並將真相開放為可加工的內容,供所有參與者使用。
在這個意義上,深度造假開啓的是普通人蔘與視覺表達的新階段。然而,這種表達方式還會結構性地受到平台權力的影響,也給社會帶來了更大的挑戰。因此,察覺風險,審慎回應,是我們做出努力的第一步。