陳根:精確複製任何聲音,以假亂真只要3秒_風聞
根新未来-01-12 10:22
文/觀察未來科技
近日,微軟研究人員發佈了一種新的語音合成AI模型 VALL-E,給出3秒樣音就可以精確地模擬一個人的聲音。一旦它學會了一個特定的聲音,VALL-E可以複製説話者的情緒和語氣,即使説話者本人從未説過的單詞也可以模仿。
微軟稱VALL-E為“神經編解碼器語言模型”,它建立在Meta於2022年10月宣佈的一項名為EnCodec的技術之上。
與其他通常通過操作波形合成語音的文本轉語音方法不同,VALL-E從文本和聲學提示生成離散音頻編解碼器代碼。它基本上分析一個人的聲音,通過EnCodec將這些信息分解成離散的組件,並使用訓練數據來匹配它“知道”的聲音。
為了合成個性化語音,VALL-E生成相應的聲學令牌,條件是3秒註冊錄音和音素提示的聲學令牌,分別約束揚聲器和內容信息。最後,使用生成的聲學標記與相應的神經編解碼器解碼器合成最終波形。

**簡單來説,**相比傳統模型採用梅爾頻譜提取特徵,VALL·E直接將語音合成當成了語言模型的任務,前者是連續的,後者是離散化的。傳統語音合成流程往往是“音素→梅爾頻譜→波形”這樣的方式。但VALL·E將這一流程變成了“音素→離散音頻編碼→波形”。
微軟在Meta組裝的名為LibriLight的音頻庫上訓練了VALL-E的語音合成能力。它包含來自7000多名演講者的60000小時的英語演講,其中大部分來自LibriVox公共領域的有聲讀物。為了使VALL-E生成良好的結果,三秒樣本中的語音必須與訓練數據中的語音緊密匹配。
**一方面,包括微軟語音合成AI模型VALL-E在內的AI語音合成技術的進步,也帶來了更多高質量的文本轉語音應用程序、語音編輯****的應用。**合成人聲的用途相當廣泛,我們熟知的便是手機中的語音助手,用户可通過簡單的人機對話,獲知天氣、路況等實時信息,也可命令手機完成撥號、查詢等任務。而如果將VALL·E和ChatGPT結合起來,我們或許很快就能擁有一個更具人性的聊天機器人。
另一方面,由於VALL-E可以合成符合説話人身份的語音,因此濫用模型可能會帶來潛在風險,比如,欺騙語音識別或冒充特定説話人。
可以預見,伴隨着相關技術的發展,智能語音在個人及商業領域中的應用場景將更加豐富,不斷細分的合成語音服務也會給我們帶來更多的體驗和驚喜。但與此同時,技術在進步的同時也需要預防可能出現的風險,包括從技術角度給技術使用留有餘地和退路。