揭秘AI偽造小楊哥錄音:最低零成本,只需三秒鐘_風聞
AI蓝媒汇-AI蓝媒汇官方账号-欢迎关注公众号:jizhezhan2小时前

作者|陶然
編輯|魏曉
小楊哥事件中曝出來那段“盧文慶錄音”,先是內容尺度之大引起輿論譁然,接着又被查明全部是AI偽造。
一來二去,AI技術再次被推上了風口浪尖。

圖/言域科技官方回覆
先不論技術好與壞,本質上,AI合成錄音可以被理解為一種Deepfake,即利用深度學習算法,實現音視頻的模擬和偽造,也就是通過人工智能技術中的深度學習模型,將人的聲音、面部表情及身體動作拼接,合成為非常逼真的虛假內容 。
技術層面來説,它是中性的,類似的方式除了語音模擬,還包括AI換臉、人臉合成、視頻生成等,統稱為深度偽造。

但,中性的技術,架不住使用者圖謀不軌。
藍媒匯諮詢了國內頭部AI數字人公司風平智能創始人兼CEO林洪祥,對於這類事件,林洪祥坦言,AI帶來的生產效率提升是全方面的,但在“應用”擴展起來的中途,違規事件想要完全隔絕,恐怕需要系統性的規範並有效執行。
依照行業目前的技術水平,用户只需要找幾分鐘的零散素材作為AI的學習樣本,就能迅速克隆出完整的AI人聲。而錄音中的一些説話的頓挫、情緒語調,完全是可以通過技術手段去增減、調整的。
並且,落到實際應用環節,複製一套AI人聲的成本“現在已經不高了”,市面上的應用很多都會給一些免費的入口,以涉事模型為例,Reecho睿聲模型提供了免費的聲音克隆服務,更為專業的版本則另需付費。

把從網上截取的一段盧老闆直播轉成音頻導入,短短几秒鐘後,盧老闆的AI聲音就克隆了出來。

再仿照原事件中情緒和文本都非常離譜的一段錄音,作為腳本導入模型,一段盧文慶鋭評馬斯克的錄音,就做完了。
(本音頻為AI合成,僅供測試,嚴禁對外傳播)
“小馬他倆走了,是吧。我跟你們説,我想讓誰火就讓誰火,懂嗎。我認識的CEO多了去了,我捧誰不是捧。別給我提馬斯克,不好使,知道不,不好使,我們喝酒也是不好使,他是個啥,沒有三隻羊,誰來給他賣貨,懂不懂這個道理。”
坦白講,如果那種AI詐騙電話聽多了,或者對人聲敏感,其實還能聽出來AI音頻有種“機器感”——語調從始至終都過於穩定,人情緒激動的時候絕不會這樣。但這只是最基礎的普通版模型、瞬時克隆功能。如果有更充足的語料、選擇專業克隆功能,效果會更“真實”。

那麼,AI合成的音視頻,有可能像測謊儀那樣比較直觀通過數據分辨真偽嗎?
在技術層面,是可行的。林洪祥介紹稱,除使用者本人授權外,現在AI數字人行業內也確實有相關標準正在建設中,要求各種AI生成的內容都加上專門的可識別“特徵標記”。
這個標籤,不是簡單的在角落裏加個“由XX AI生成”水印,以AI合成聲音為例,它會在人説話聲音的頻段之外,添加額外的噪聲頻段,甚至在可見音的範圍內,添加一定的特徵頻段。
這個特徵頻率可由機器識別,如果需要做鑑定,交由設備抽取這些頻段,理論上即可判定真偽。
但目前,願意將這項功能普及的企業並不會太多,限制因素無他,主要還是多一道手續產生的成本——儘管單次使用模型的成本並不高,但每個音視頻模型預訓練階段的投入,以及階段性產出後開發下一代音視頻模型所產生的成本,對於現階段的AI企業仍有較大壓力。
目前,AI音視頻行業尚在早期,推廣階段如何獲客的同時覆蓋成本,是從業者繞不開的話題。
但上述這些,顯然都不是圖謀不軌的不法分子會考慮的事,煙花還是炸彈關鍵看火藥怎麼用。
半年多前,香港警方披露了一起涉案金額高達2億港元的詐騙案。案件中,某跨國公司香港分部的職員接到總部CFO通知,稱總部正在計劃一個“秘密交易”,需要將公司資金轉到幾個香港本地的賬户中待用。
而後,員工受邀參加總部發起的“多人視頻會議”,並按照會議要求先後將2億港元分別轉賬15次,分別轉到了5個銀行賬户內。

圖源/央視新聞
實際上,這場多人視頻會議,除了該分部職員外,其他“人”都是詐騙分子利用公開音視頻切片合成的AI形象,再用視頻電話會議的形式換臉換聲音,詐騙團隊直接變成高管團隊發號施令。
香港案件中,不法分子是相當於是用AI換臉+AI變聲器真人出鏡,而小楊哥這次的AI偽造錄音,則是完全由大模型學習三隻羊公司盧文慶相關音頻素材後,合成語調、情緒都趨近於真人的整段音頻。流程,就是這麼簡單——AI合成音視頻,已經是一項成熟的技術,相關產品,也已發展成為完整產業。
但,AI合成音視頻的主流,絕非造假。流浪地球第二部的劇情內,劉德華飾演的圖恆宇以數字生命的形式復活了丫丫,而在劇情外,已故的知名影星吳孟達,也在藉由 AI 現身銀幕。


所以,以後如果再出類似小楊哥錄音事件,討論技術有罪還是無罪之前,還是儘量先把人控制住。
管管人性,救救AI。
Lanmeih/今日話題
你對AI技術的態度是?