我用AI克隆了自己她騙過了我的銀行和家人——《華爾街日報》
Joanna Stern
關於AI喬安娜的好消息:她永遠不會失聲,姿態優雅,即使敞篷車以120英里時速穿越龍捲風也弄不亂她的髮型。
壞消息是:她能騙過我的家人,還能戲弄我的銀行。
或許你曾玩過OpenAI的ChatGPT、谷歌的Bard這類聊天機器人,或是Dall-E之類的圖像生成器。如果你認為它們模糊了人工智能與人類智能的界限,那接下來所見所聞——才真正顛覆認知。
過去幾個月,我一直在測試Synthesia——這款工具能通過錄制視頻和音頻(即深度偽造)生成人工智能虛擬形象。輸入任意文字,你的視頻化身就會複述出來。
由於我常從事語音視頻工作,本以為這能提升效率,擺脱枯燥。畢竟,這正體現了人工智能的承諾。於是我去錄音棚錄製了約30分鐘視頻和近兩小時音頻供Synthesia訓練我的數字分身。幾周後,AI喬安娜誕生了。
接着我嘗試了終極偷懶方案——《春天不是讀書天》式休假。搭配ChatGPT生成文本的AI版"我",能否在視頻、會議和電話中取代真實的我?結果可謂大開眼界,或者説——AI開眼界。(爛笑話都怪AI喬安娜。)
最終,AI喬安娜可能會撰寫專欄並主持我的視頻節目。目前,她最能體現生成式AI語音視頻工具的雙刃劍特性。
我的視頻化身看起來就是個虛擬形象
視頻製作極其耗時——髮型、妝容、服裝、攝像機、燈光、麥克風。Synthesia公司承諾能消除這些工作,這正是企業已開始使用它的原因。那些無聊的合規培訓視頻你見過吧?既然AI能搞定一切,何必花錢請真人演員出演?Synthesia收費每年1000美元創建和維護定製化身,另需按月支付訂閲費。它也提供月費更低的預製化身。
我讓ChatGPT以喬安娜·斯特恩的口吻生成了一段關於iOS技巧的TikTok腳本。將其粘貼到Synthesia點擊"生成"後,突然"我"就開始説話了。這就像看着鏡中的自己,只不過這個鏡像不會做手勢和表情。短句子時化身相當逼真,但文本越長,她的機器本質就越明顯。具體效果請觀看我的視頻。
在用户注意力如金魚般短暫的TikTok上,這些機械特質不太容易被察覺。不過還是有人立刻發現了端倪。鄭重聲明,我寧可生吞鰻魚也不會説"TikTok家人們"這種話,但AI版的我説起來毫無障礙。
在工作視頻會議中,機器特性變得極其明顯。我下載了她常説會議用語(“大家好!““抱歉剛才靜音了”)的片段,用軟件接入Google Meet。顯然,AI喬安娜僵硬的坐姿和缺乏機智的表現徹底暴露了身份。
不過,這一切都會變得更好。Synthesia有一些測試版虛擬形象已經能實現點頭、挑眉等動作。
我的AI聲音簡直以假亂真
當我姐姐的魚死去時,我本可以親自打電話慰問;與Snap CEO埃文·斯皮格爾電話採訪時,我也完全可以自己提問。但在這兩種情況下,起初我的AI聲音都成功扮演了替身。
這些通話中我並未使用Synthesia的聲音克隆,而是採用了AI語音軟件開發商ElevenLabs生成的聲音。製作人肯尼·瓦瑟斯從我過往視頻中提取了約90分鐘的聲音素材上傳至該工具——無需專業錄音室。不到兩分鐘,它就克隆了我的聲音。在ElevenLabs的網頁工具中輸入任意文字,點擊生成,幾秒內"我"的聲音就會朗讀出來。ElevenLabs的語音克隆服務起價為每月5美元。
相比Synthesia的喬安娜版本,ElevenLabs克隆的"我"更接近真人,語調和流暢度更優。試聽對比音頻:
每週與我通話數次的姐姐表示,這個AI完全就是我的聲音,只是注意到它不會像真人那樣停頓呼吸。當我打給父親索要社保號碼時,他僅因聲音像錄音才察覺異常。
濫用風險確實存在
ElevenLabs的克隆聲音甚至騙過了我的大通信用卡聲紋驗證系統。
我預先為AI喬安娜準備了幾個我知道蔡斯會問的問題,然後撥打了客服電話。在生物識別步驟中,當自動化系統要求提供我的姓名和地址時,AI喬安娜做出了回應。聽到我的機器人聲音後,系統將其識別為我本人,並立即轉接給客服代表。而當我們的視頻實習生嘗試模仿喬安娜的聲音撥打電話時,自動化系統則要求進一步驗證。
摩根大通發言人表示,該銀行使用語音生物識別技術及其他工具來驗證來電者身份。她補充説,這一功能旨在讓客户快速安全地確認身份,但要完成交易和其他財務請求,客户仍需提供額外信息。
最令人擔憂的是:ElevenLabs幾乎毫無障礙地製作出了高度逼真的克隆聲音。我只需點擊一個按鈕,聲明我擁有上傳音頻文件和創建克隆的"必要權利或授權”,且不會將其用於欺詐目的。
這意味着任何網民都可以保存並使用我——或者你,甚至喬·拜登、湯姆·布雷迪——數小時的錄音。美國聯邦貿易委員會已就AI語音相關騙局發出警告。
Synthesia公司要求音頻視頻必須包含口頭授權聲明,我在該公司拍攝錄製時已履行該要求。
ElevenLabs聯合創始人馬蒂·斯坦尼舍夫斯基告訴我,該公司僅允許付費賬户使用克隆功能,因此任何違反公司政策的克隆聲音使用行為都可追溯到賬户持有人。該公司正在開發認證工具,讓人們可以上傳任意音頻以檢測是否使用了ElevenLabs技術生成。
這兩個系統都允許我用我的聲音生成一些可怕的內容,包括死亡威脅。
在Synthesia的網絡工具中,你可以輸入你希望你的虛擬形象説的話。照片:Joanna Stern/華爾街日報,SynthesiaSynthesia的一位發言人表示,我的賬户被指定為新聞機構使用,這意味着它可以表達一些可能會被過濾掉的詞語和短語。該公司表示,其審核人員後來標記並刪除了我有問題的短語。當我的賬户被更改為標準類型後,我再也無法生成那些相同的短語。
Staniszewski先生表示,ElevenLabs可以識別所有使用其軟件製作的內容。他補充説,如果內容違反了公司的服務條款,ElevenLabs可以封禁其來源賬户,並在違法的情況下協助當局。
這些東西很難被發現。
當我詢問加州大學伯克利分校的數字取證專家Hany Farid如何識別合成音頻和視頻時,他只説了兩個字:祝你好運。
“我不僅可以生成這些東西,還可以在互聯網上地毯式轟炸它們,”他説,並補充道,你不能讓每個人都成為AI偵探。
當然,我的視頻克隆明顯不是我,但它只會變得越來越好。如果連我自己的父母和姐姐都聽出我聲音的差異,我還能指望其他人嗎?
聽到由Adobe主導的內容真實性倡議,我獲得了一絲希望。超過1000家媒體和科技公司、學術界等機構致力於為媒體創建嵌入式“營養標籤”。未來網絡上的照片、視頻和音頻或許都將附帶可驗證信息。Synthesia是該倡議的成員之一。
職場幻想:能替你參加視頻會議的AI。可惜所有人都看出她是冒牌貨。圖片來源:Joanna Stern/華爾街日報### 身為人類讓我倍感欣慰
與從不微笑的AI喬安娜不同,真正的喬安娜在此之後有了值得微笑的理由。ChatGPT生成的文字缺乏我的個人風格和專業見解,視頻克隆體也缺失了構成真實自我的特質。雖然我的視頻製作人喜歡在初剪時用AI語音調試節奏,但我的真實聲音更具活力、情感和韻律。
AI會在這方面做得更好嗎?毫無疑問。但我也計劃利用這些工具為自己爭取更多時間做真實的人類。至少現在開會時,我的坐姿比以往端正多了。
—訂閲《喬安娜·斯特恩的科技萬物》週刊,在這個萬物皆科技的時代,專欄作家喬安娜·斯特恩將作為嚮導,解析並解答關於這個永遠在線世界的種種疑問。
寫信給喬安娜·斯特恩,郵箱:[email protected]
更正與補充説明本文早期版本中隨附圖片的説明文字將Synthesia網絡工具的名稱誤拼為Sythesia。(已於4月28日更正)
刊登於2023年4月29日印刷版,標題為《AI克隆體騙過了我的銀行和家人》。