埃隆·馬斯克、谷歌母公司投資碳減排技術-彭博報道

Akshat Rathi, Stefan Nicola

2022-05-03

插圖：夏洛特·波萊特為彭博商業週刊繪製Jordan Howlett

攝影師：約翰·弗朗西斯·彼得斯為彭博商業週刊拍攝Jordan Howlett，一位在Instagram、TikTok和YouTube上擁有2400萬粉絲的26歲青年，非常謹慎地選擇與之合作的品牌。他已經與Domino’s Pizza、Google和WingStop簽署了協議，靠着創作關於如何“像專業人士一樣打開罐子”或者“正確吃Chipotle碗”的視頻來謀生。因此，當他開始收到詢問他為什麼在Facebook和Instagram上宣傳一種所謂的治療失明的產品時，他感到恐慌。

Howlett點擊了其中一個問題視頻的鏈接，恐懼地聽着一個聲音，聽起來就像是他自己的聲音，描述了“劍橋的頂尖研究人員”發現了一種可以讓任何人擁有完美視力的七秒儀式。視頻中包含了腦部X光和中年人眯着眼睛看手機的庫存圖片，剪輯非常粗糙。但根據Howlett的説法，音頻非常具有説服力。“當我聽到自己的聲音時，我感到恐懼，”他説。“他們理論上可以讓我説任何話。”

網絡安全專家多年來一直在警告深度偽造——人工生成或篡改的媒體，可以通過作為真實的。雖然很多關注點集中在圖像和視頻上，但在過去一年中已經明顯，音頻深度偽造，有時被稱為聲音克隆，構成了最直接的威脅。欺詐檢測機構Pindrop的創始人Vijay Balasubramaniyan表示，他的公司已經開始看到對銀行客户的攻擊，詐騙分子使用合成音頻冒充客户支持電話中的賬户持有人。

豪利特説他被他的聲音的假音頻“嚇壞了”。攝影師：約翰·弗朗西斯·彼得斯為彭博商業週刊另一個主要的恐懼是政治操縱，比如當 20,000名新罕布什爾州選民收到一通電話聲稱是來自總統喬·拜登，敦促他們不要在第二天投票給他。這並沒有明顯的實際影響：拜登甚至不在選票上，但仍然通過一場填空選舉大獲全勝。儘管如此，這一事件加強了人們對這種技術可能在今年的選舉中發揮重要作用的擔憂。2月8日，聯邦通信委員會禁止使用人工智能的自動電話競選活動。

Pindrop表示，豪利特的視頻是通過將他講話的錄音（顯然是從他的YouTube或Instagram視頻中獲取的）輸入由一家名為ElevenLabs的初創公司開發的軟件中來創建的，以克隆他的聲音。從那時起，正如豪利特所擔心的那樣，ElevenLabs的技術賦予了其用户創作出令人毛骨悚然的逼真的以他的聲音為基礎的音頻敍述的能力。另外兩名獨立研究人員分析了拜登的電話自動撥號，並確定該音頻也是使用ElevenLabs技術生成的。

童年時的朋友Mati Staniszewski，一位前部署戰略師，現在是Palantir Technologies Inc.的員工，和Piotr Dąbkowski，一位前Google機器學習工程師，兩年前創立了ElevenLabs。這兩個人在波蘭長大，看着被拙劣配音成波蘭語的好萊塢電影，他們認為人工智能可以讓今天的孩子們免受類似經歷。他們認為，同樣的工具可以用來講述在線課程或有聲書，甚至翻譯實時對話。

這個想法讓ElevenLabs成為生成式人工智能行業中最受關注的初創公司之一。它並不是唯一的語音克隆服務提供商，但它已經躋身於行業前列。ElevenLabs已經從包括Andreessen Horowitz、Smash Capital和DeepMind聯合創始人Mustafa Suleyman在內的投資者那裏籌集了資金。該公司最近一輪融資於一月宣佈，估值達到11億美元。熟悉ElevenLabs內部運作的人士表示，管理層並不希望看到他們的產品被用來製作欺詐性的互聯網廣告或選民壓制材料。但正如成功的互聯網初創公司經常發生的情況一樣，該公司的工具傳播速度比開發防範濫用的保障措施更快。

ElevenLabs提供一個免費的通用語音庫，但對於可識別的聲音克隆的需求迅速增長。在2023年一月推出了一個工具，允許人們只需一個簡短的音頻片段就可以克隆一個聲音之後，ElevenLabs在Twitter上表示，他們看到“越來越多的聲音克隆濫用案例”。據當時的新聞報道，這些濫用案例源自網站4chan上的用户，分享了播客主持人Joe Rogan和女演員Emma Watson似乎使用種族主義和恐同言論的片段。

名人模仿給ElevenLabs帶來了法律困境。1988年，一家上訴法院裁定，著名人士有權利禁止未經允許使用其聲音等獨特特徵進行商業用途。（此問題起因於Bette Midler起訴Ford Motor Co.僱傭一名歌手模仿她的聲音，而她拒絕親自在廣告中演唱。）

為了減少濫用，ElevenLabs開始收取每月1美元的費用，用於其之前免費的語音克隆工具。這並沒有使製作音頻深度偽造成本過高，但意味着用户必須連接可追蹤的支付方式，如信用卡，這可能會阻止不良行為者並有助於執法。

ElevenLabs表示，他們不會“就具體事件發表評論，但如果有違反我們條款的內容被提出，我們將採取適當行動。” Staniszewski在一月接受彭博新聞採訪時表示，公司技術幾乎所有用途都是合法的，ElevenLabs可以追蹤用户使用語音克隆創建的短語。“所有的安全措施都是至關重要的，”他説。

據一位熟悉該公司運營的人士透露，公司於2023年底開始制定計劃，以應對具有各種惡意意圖的用户。ElevenLabs首席幕僚維多利亞·韋勒特特別關注於在2024年英國在線安全法案和歐洲數字服務法案生效之前制定規則。她希望制定圍繞冒犯性語言的政策，併為員工制定手冊，以便他們清楚何時可以禁止客户。ElevenLabs的使用規則禁止“欺騙性或誤導性的語音克隆”和“煽動暴力或宣揚仇恨的內容”。但他們也承認公司不會“主動監控您在我們服務上的內容。”

ElevenLabs的40名員工中有五名致力於信任和安全。在採訪中，熟悉該公司工作的人表示，創始人們熱衷於防止可能發生的選舉舞弊或濫用語言。但人工智能和信任與安全方面的專家表示，幾乎不可能阻止人們利用公開可用的生成式人工智能工具創建有問題的內容。社區經理Mohamed Abdihakim Mohammed表示，科技公司通常致力於阻止90%的有害行為，他曾在許多軟件公司從事內容審核工作。但初創公司“實際上無法阻止如此易於獲取的語音克隆技術造成破壞，”他説。

拜登的自動撥號電話顯示了ElevenLabs技術防護措施的侷限性。該公司提供一種稱為“語音分類器”的工具，據稱可以確定音頻剪輯是否合成以及任何特定剪輯是否使用了其軟件創建。彭卓普和彭卓普使用該工具檢查了拜登的一個剪輯，技術顯示這不是一個深度偽造視頻。其他公司的類似工具得出了相反的結論，而在清除背景噪音後，ElevenLabs自己的工具得出結論，其技術最終被使用了。

這一變化的判決顯示，深度偽造檢測工具離源頭越遠，可靠性就越低。創作者可以添加噪音或其他扭曲來干擾工具。社交媒體上事實核查項目的記錄也表明，即使檢測完美，影響也會有限。一旦有人制作了音頻剪輯，它就可能在社交網絡上廣泛傳播，誤導性內容往往會傳播到不願相信那些聲稱與他們產生共鳴的內容是非法的觀眾中。

大約有121,000人觀看了其中一個虛假的豪利特視頻。他説，更多類似的內容“可能會破壞未來的商機”。他還擔心這會讓他的粉絲面臨欺詐風險。“我不希望我的追隨者受騙”，他説。

然後是2024年的選舉。深度偽造視頻的創作者們一直在積極探索可能性。其中之一是YouTube上的創作者Samin Yasar，他是AI Answers的創始人，這是一個致力於利用AI音頻替代呼叫中心的服務。今年一月，Yasar發佈了一個視頻，稱他使用ElevenLabs為兩個政治競選克隆了聲音。

Yasar攝影師：Amy Lombard，彭博商業週刊視頻的靈感來自與Adam Wynns的對話，他是一個日光浴牀企業家，創立了一個名為Winningest Method的企業，提供生活輔導和減肥藥。Wynns問Yasar是否可能創建一個大規模的自動政治電話競選活動，以從選民那裏收集民意調查信息。他告訴Yasar，他認識一些可能會利用這項技術的人。

為了做出概念驗證，Yasar使用ElevenLabs克隆了MyPillow首席執行官Mike Lindell的聲音，他在右翼政治中活躍，並因涉及對2020年總統選舉的虛假指控而被投票機公司Dominion Voting Systems Inc.起訴13億美元。Lindell否認有任何不當行為。“我堅信我們需要審查我們的投票系統並確保透明度”，音頻宣稱，根據Businessweek審查的樣本，這是由ChatGPT創建的腳本。 “我的努力集中在調查不正常情況上。”

Lindell攝影師：Joshua Roberts/BloombergYasar將音頻上傳到一個自動撥號服務。假冒的 Lindell 可以回答選民的問題和評論，類似於自動客户服務電話。

Wynns 説他向 Lindell 和 Scott Jensen 提出了這個想法，後者是一位前明尼蘇達州共和黨州長候選人，因傳播 Covid-19 虛假信息而受到批評。他從未收到回覆，最終在商業化這項技術之前放棄了這個想法，稱潛在的法律問題開始讓他感到緊張。儘管從技術上講，沒有任何阻止他的事情。 —與 Mark Bergen**閲讀下一篇： 沒有法律保護人們免受深度偽造色情內容的侵害。這些受害者進行了反擊