揭秘AI偽造小楊哥錄音：最低零成本，只需三秒鐘_風聞

AI蓝媒汇-AI蓝媒汇官方账号-欢迎关注公众号：jizhezhan2小时前

2024-10-01

作者|陶然

編輯|魏曉

小楊哥事件中曝出來那段“盧文慶錄音”，先是內容尺度之大引起輿論譁然，接着又被查明全部是AI偽造。

一來二去，AI技術再次被推上了風口浪尖。

圖/言域科技官方回覆

先不論技術好與壞，本質上，AI合成錄音可以被理解為一種Deepfake，即利用深度學習算法，實現音視頻的模擬和偽造，也就是通過人工智能技術中的深度學習模型，將人的聲音、面部表情及身體動作拼接，合成為非常逼真的虛假內容。

技術層面來説，它是中性的，類似的方式除了語音模擬，還包括AI換臉、人臉合成、視頻生成等，統稱為深度偽造。

但，中性的技術，架不住使用者圖謀不軌。

藍媒匯諮詢了國內頭部AI數字人公司風平智能創始人兼CEO林洪祥，對於這類事件，林洪祥坦言，AI帶來的生產效率提升是全方面的，但在“應用”擴展起來的中途，違規事件想要完全隔絕，恐怕需要系統性的規範並有效執行。

依照行業目前的技術水平，用户只需要找幾分鐘的零散素材作為AI的學習樣本，就能迅速克隆出完整的AI人聲。而錄音中的一些説話的頓挫、情緒語調，完全是可以通過技術手段去增減、調整的。

並且，落到實際應用環節，複製一套AI人聲的成本“現在已經不高了”，市面上的應用很多都會給一些免費的入口，以涉事模型為例，Reecho睿聲模型提供了免費的聲音克隆服務，更為專業的版本則另需付費。

把從網上截取的一段盧老闆直播轉成音頻導入，短短几秒鐘後，盧老闆的AI聲音就克隆了出來。

再仿照原事件中情緒和文本都非常離譜的一段錄音，作為腳本導入模型，一段盧文慶鋭評馬斯克的錄音，就做完了。

（本音頻為AI合成，僅供測試，嚴禁對外傳播）

“小馬他倆走了，是吧。我跟你們説，我想讓誰火就讓誰火，懂嗎。我認識的CEO多了去了，我捧誰不是捧。別給我提馬斯克，不好使，知道不，不好使，我們喝酒也是不好使，他是個啥，沒有三隻羊，誰來給他賣貨，懂不懂這個道理。”

坦白講，如果那種AI詐騙電話聽多了，或者對人聲敏感，其實還能聽出來AI音頻有種“機器感”——語調從始至終都過於穩定，人情緒激動的時候絕不會這樣。但這只是最基礎的普通版模型、瞬時克隆功能。如果有更充足的語料、選擇專業克隆功能，效果會更“真實”。

那麼，AI合成的音視頻，有可能像測謊儀那樣比較直觀通過數據分辨真偽嗎？

在技術層面，是可行的。林洪祥介紹稱，除使用者本人授權外，現在AI數字人行業內也確實有相關標準正在建設中，要求各種AI生成的內容都加上專門的可識別“特徵標記”。

這個標籤，不是簡單的在角落裏加個“由XX AI生成”水印，以AI合成聲音為例，它會在人説話聲音的頻段之外，添加額外的噪聲頻段，甚至在可見音的範圍內，添加一定的特徵頻段。

這個特徵頻率可由機器識別，如果需要做鑑定，交由設備抽取這些頻段，理論上即可判定真偽。

但目前，願意將這項功能普及的企業並不會太多，限制因素無他，主要還是多一道手續產生的成本——儘管單次使用模型的成本並不高，但每個音視頻模型預訓練階段的投入，以及階段性產出後開發下一代音視頻模型所產生的成本，對於現階段的AI企業仍有較大壓力。

目前，AI音視頻行業尚在早期，推廣階段如何獲客的同時覆蓋成本，是從業者繞不開的話題。

但上述這些，顯然都不是圖謀不軌的不法分子會考慮的事，煙花還是炸彈關鍵看火藥怎麼用。

半年多前，香港警方披露了一起涉案金額高達2億港元的詐騙案。案件中，某跨國公司香港分部的職員接到總部CFO通知，稱總部正在計劃一個“秘密交易”，需要將公司資金轉到幾個香港本地的賬户中待用。

而後，員工受邀參加總部發起的“多人視頻會議”，並按照會議要求先後將2億港元分別轉賬15次，分別轉到了5個銀行賬户內。

圖源/央視新聞

實際上，這場多人視頻會議，除了該分部職員外，其他“人”都是詐騙分子利用公開音視頻切片合成的AI形象，再用視頻電話會議的形式換臉換聲音，詐騙團隊直接變成高管團隊發號施令。

香港案件中，不法分子是相當於是用AI換臉+AI變聲器真人出鏡，而小楊哥這次的AI偽造錄音，則是完全由大模型學習三隻羊公司盧文慶相關音頻素材後，合成語調、情緒都趨近於真人的整段音頻。流程，就是這麼簡單——AI合成音視頻，已經是一項成熟的技術，相關產品，也已發展成為完整產業。

但，AI合成音視頻的主流，絕非造假。流浪地球第二部的劇情內，劉德華飾演的圖恆宇以數字生命的形式復活了丫丫，而在劇情外，已故的知名影星吳孟達，也在藉由 AI 現身銀幕。

所以，以後如果再出類似小楊哥錄音事件，討論技術有罪還是無罪之前，還是儘量先把人控制住。

管管人性，救救AI。

Lanmeih/今日話題

你對AI技術的態度是？