我用AI克隆了自己她騙過了我的銀行和家人——《華爾街日報》

Joanna Stern

2023-04-28

關於AI喬安娜的好消息：她永遠不會失聲，姿態優雅，即使敞篷車以120英里時速穿越龍捲風也弄不亂她的髮型。

壞消息是：她能騙過我的家人，還能戲弄我的銀行。

或許你曾玩過OpenAI的ChatGPT、谷歌的Bard這類聊天機器人，或是Dall-E之類的圖像生成器。如果你認為它們模糊了人工智能與人類智能的界限，那接下來所見所聞——才真正顛覆認知。

過去幾個月，我一直在測試Synthesia——這款工具能通過錄制視頻和音頻（即深度偽造）生成人工智能虛擬形象。輸入任意文字，你的視頻化身就會複述出來。

由於我常從事語音視頻工作，本以為這能提升效率，擺脱枯燥。畢竟，這正體現了人工智能的承諾。於是我去錄音棚錄製了約30分鐘視頻和近兩小時音頻供Synthesia訓練我的數字分身。幾周後，AI喬安娜誕生了。

接着我嘗試了終極偷懶方案——《春天不是讀書天》式休假。搭配ChatGPT生成文本的AI版"我"，能否在視頻、會議和電話中取代真實的我？結果可謂大開眼界，或者説——AI開眼界。（爛笑話都怪AI喬安娜。）

最終，AI喬安娜可能會撰寫專欄並主持我的視頻節目。目前，她最能體現生成式AI語音視頻工具的雙刃劍特性。

我的視頻化身看起來就是個虛擬形象

視頻製作極其耗時——髮型、妝容、服裝、攝像機、燈光、麥克風。Synthesia公司承諾能消除這些工作，這正是企業已開始使用它的原因。那些無聊的合規培訓視頻你見過吧？既然AI能搞定一切，何必花錢請真人演員出演？Synthesia收費每年1000美元創建和維護定製化身，另需按月支付訂閲費。它也提供月費更低的預製化身。

我讓ChatGPT以喬安娜·斯特恩的口吻生成了一段關於iOS技巧的TikTok腳本。將其粘貼到Synthesia點擊"生成"後，突然"我"就開始説話了。這就像看着鏡中的自己，只不過這個鏡像不會做手勢和表情。短句子時化身相當逼真，但文本越長，她的機器本質就越明顯。具體效果請觀看我的視頻。

在用户注意力如金魚般短暫的TikTok上，這些機械特質不太容易被察覺。不過還是有人立刻發現了端倪。鄭重聲明，我寧可生吞鰻魚也不會説"TikTok家人們"這種話，但AI版的我説起來毫無障礙。

在工作視頻會議中，機器特性變得極其明顯。我下載了她常説會議用語(“大家好！““抱歉剛才靜音了”)的片段，用軟件接入Google Meet。顯然，AI喬安娜僵硬的坐姿和缺乏機智的表現徹底暴露了身份。

不過，這一切都會變得更好。Synthesia有一些測試版虛擬形象已經能實現點頭、挑眉等動作。

我的AI聲音簡直以假亂真

當我姐姐的魚死去時，我本可以親自打電話慰問；與Snap CEO埃文·斯皮格爾電話採訪時，我也完全可以自己提問。但在這兩種情況下，起初我的AI聲音都成功扮演了替身。

這些通話中我並未使用Synthesia的聲音克隆，而是採用了AI語音軟件開發商ElevenLabs生成的聲音。製作人肯尼·瓦瑟斯從我過往視頻中提取了約90分鐘的聲音素材上傳至該工具——無需專業錄音室。不到兩分鐘，它就克隆了我的聲音。在ElevenLabs的網頁工具中輸入任意文字，點擊生成，幾秒內"我"的聲音就會朗讀出來。ElevenLabs的語音克隆服務起價為每月5美元。

相比Synthesia的喬安娜版本，ElevenLabs克隆的"我"更接近真人，語調和流暢度更優。試聽對比音頻：

每週與我通話數次的姐姐表示，這個AI完全就是我的聲音，只是注意到它不會像真人那樣停頓呼吸。當我打給父親索要社保號碼時，他僅因聲音像錄音才察覺異常。

濫用風險確實存在

ElevenLabs的克隆聲音甚至騙過了我的大通信用卡聲紋驗證系統。

我預先為AI喬安娜準備了幾個我知道蔡斯會問的問題，然後撥打了客服電話。在生物識別步驟中，當自動化系統要求提供我的姓名和地址時，AI喬安娜做出了回應。聽到我的機器人聲音後，系統將其識別為我本人，並立即轉接給客服代表。而當我們的視頻實習生嘗試模仿喬安娜的聲音撥打電話時，自動化系統則要求進一步驗證。

摩根大通發言人表示，該銀行使用語音生物識別技術及其他工具來驗證來電者身份。她補充説，這一功能旨在讓客户快速安全地確認身份，但要完成交易和其他財務請求，客户仍需提供額外信息。

最令人擔憂的是：ElevenLabs幾乎毫無障礙地製作出了高度逼真的克隆聲音。我只需點擊一個按鈕，聲明我擁有上傳音頻文件和創建克隆的"必要權利或授權”，且不會將其用於欺詐目的。

這意味着任何網民都可以保存並使用我——或者你，甚至喬·拜登、湯姆·布雷迪——數小時的錄音。美國聯邦貿易委員會已就AI語音相關騙局發出警告。

Synthesia公司要求音頻視頻必須包含口頭授權聲明，我在該公司拍攝錄製時已履行該要求。

ElevenLabs聯合創始人馬蒂·斯坦尼舍夫斯基告訴我，該公司僅允許付費賬户使用克隆功能，因此任何違反公司政策的克隆聲音使用行為都可追溯到賬户持有人。該公司正在開發認證工具，讓人們可以上傳任意音頻以檢測是否使用了ElevenLabs技術生成。

這兩個系統都允許我用我的聲音生成一些可怕的內容，包括死亡威脅。

在Synthesia的網絡工具中，你可以輸入你希望你的虛擬形象説的話。照片：Joanna Stern/華爾街日報，SynthesiaSynthesia的一位發言人表示，我的賬户被指定為新聞機構使用，這意味着它可以表達一些可能會被過濾掉的詞語和短語。該公司表示，其審核人員後來標記並刪除了我有問題的短語。當我的賬户被更改為標準類型後，我再也無法生成那些相同的短語。

Staniszewski先生表示，ElevenLabs可以識別所有使用其軟件製作的內容。他補充説，如果內容違反了公司的服務條款，ElevenLabs可以封禁其來源賬户，並在違法的情況下協助當局。

這些東西很難被發現。

當我詢問加州大學伯克利分校的數字取證專家Hany Farid如何識別合成音頻和視頻時，他只説了兩個字：祝你好運。

“我不僅可以生成這些東西，還可以在互聯網上地毯式轟炸它們，”他説，並補充道，你不能讓每個人都成為AI偵探。

當然，我的視頻克隆明顯不是我，但它只會變得越來越好。如果連我自己的父母和姐姐都聽出我聲音的差異，我還能指望其他人嗎？

聽到由Adobe主導的內容真實性倡議，我獲得了一絲希望。超過1000家媒體和科技公司、學術界等機構致力於為媒體創建嵌入式“營養標籤”。未來網絡上的照片、視頻和音頻或許都將附帶可驗證信息。Synthesia是該倡議的成員之一。

職場幻想：能替你參加視頻會議的AI。可惜所有人都看出她是冒牌貨。圖片來源：Joanna Stern/華爾街日報### 身為人類讓我倍感欣慰

與從不微笑的AI喬安娜不同，真正的喬安娜在此之後有了值得微笑的理由。ChatGPT生成的文字缺乏我的個人風格和專業見解，視頻克隆體也缺失了構成真實自我的特質。雖然我的視頻製作人喜歡在初剪時用AI語音調試節奏，但我的真實聲音更具活力、情感和韻律。

AI會在這方面做得更好嗎？毫無疑問。但我也計劃利用這些工具為自己爭取更多時間做真實的人類。至少現在開會時，我的坐姿比以往端正多了。

—訂閲《喬安娜·斯特恩的科技萬物》週刊，在這個萬物皆科技的時代，專欄作家喬安娜·斯特恩將作為嚮導，解析並解答關於這個永遠在線世界的種種疑問。

寫信給喬安娜·斯特恩，郵箱：[email protected]

更正與補充説明本文早期版本中隨附圖片的説明文字將Synthesia網絡工具的名稱誤拼為Sythesia。（已於4月28日更正）

刊登於2023年4月29日印刷版，標題為《AI克隆體騙過了我的銀行和家人》。