陳根：精確複製任何聲音，以假亂真只要3秒_風聞

根新未来-01-12 10:22

2023-01-12

文/觀察未來科技

近日，微軟研究人員發佈了一種新的語音合成AI模型 VALL-E，給出3秒樣音就可以精確地模擬一個人的聲音。一旦它學會了一個特定的聲音，VALL-E可以複製説話者的情緒和語氣，即使説話者本人從未説過的單詞也可以模仿。

微軟稱VALL-E為“神經編解碼器語言模型”，它建立在Meta於2022年10月宣佈的一項名為EnCodec的技術之上。

與其他通常通過操作波形合成語音的文本轉語音方法不同，VALL-E從文本和聲學提示生成離散音頻編解碼器代碼。它基本上分析一個人的聲音，通過EnCodec將這些信息分解成離散的組件，並使用訓練數據來匹配它“知道”的聲音。

為了合成個性化語音，VALL-E生成相應的聲學令牌，條件是3秒註冊錄音和音素提示的聲學令牌，分別約束揚聲器和內容信息。最後，使用生成的聲學標記與相應的神經編解碼器解碼器合成最終波形。

**簡單來説，**相比傳統模型採用梅爾頻譜提取特徵，VALL·E直接將語音合成當成了語言模型的任務，前者是連續的，後者是離散化的。傳統語音合成流程往往是“音素→梅爾頻譜→波形”這樣的方式。但VALL·E將這一流程變成了“音素→離散音頻編碼→波形”。

微軟在Meta組裝的名為LibriLight的音頻庫上訓練了VALL-E的語音合成能力。它包含來自7000多名演講者的60000小時的英語演講，其中大部分來自LibriVox公共領域的有聲讀物。為了使VALL-E生成良好的結果，三秒樣本中的語音必須與訓練數據中的語音緊密匹配。

**一方面，包括微軟語音合成AI模型VALL-E在內的AI語音合成技術的進步，也帶來了更多高質量的文本轉語音應用程序、語音編輯****的應用。**合成人聲的用途相當廣泛，我們熟知的便是手機中的語音助手，用户可通過簡單的人機對話，獲知天氣、路況等實時信息，也可命令手機完成撥號、查詢等任務。而如果將VALL·E和ChatGPT結合起來，我們或許很快就能擁有一個更具人性的聊天機器人。

另一方面，由於VALL-E可以合成符合説話人身份的語音，因此濫用模型可能會帶來潛在風險，比如，欺騙語音識別或冒充特定説話人。

可以預見，伴隨着相關技術的發展，智能語音在個人及商業領域中的應用場景將更加豐富，不斷細分的合成語音服務也會給我們帶來更多的體驗和驚喜。但與此同時，技術在進步的同時也需要預防可能出現的風險，包括從技術角度給技術使用留有餘地和退路。