最像真人的中文TTS，斬獲2w+收藏！一夜爆火的ChatTTS 實測_風聞

乌鸦智能说-28分钟前

2024-06-05

最像人聲的AI來了！語音開源天花板ChatTTS火速出圈，3天就斬獲9k個star。

截至發稿前，已經20.3k個star了。這是專門為對話場景設計的語音生成模型，用於LLM助手對話任務、對話語音、視頻介紹等，僅支持中英文。（項目地址：https://github.com/2noise/ChatTTS）

從宣傳視頻以及其他愛好者的試用情況來看，4w小時訓練的版本效果已經非常不錯了，生成語音的效果真假難辨，還會自動加入“emm……”“然後”等語氣詞，韻律和情感邏輯的效果吊打Google TTS，要説一句“同比最強”毫不誇張。

強者可能也承受着更挑剔的目光，以列文虎克般的眼光，我也發現了ChatTTS有待改進的穩定性、生成速度等問題，這也讓人萌生了一絲期待。

/ 01 / 實測：韻律和情感邏輯超能打，基本錯誤也挺多

ChatTTS可以本地部署，官網也提供了在線合成語音試用的地址（http://www.chattts.com），我們就在線試用版本來和大家分享一下體驗感受。

TTS全寫是Text To Speech，即文本轉語音，我們在ChatTTS網頁的文本框輸入一段文字，隨機抽選音色，並使用IPython.display庫中的Audio函數來播放生成的音頻，音頻可保存為WAV文件。

▲測試語音“從油管、B站的眾多視頻博主以及我自己的試用情況來看……”

頗有趣味的是，抽卡過程像是開盲盒一樣，從預訓練的説話者模型中隨機選擇一個説話者，不知道是會開出“天津大爺”還是“嚴肅的女教師”。而同一段文本，同一個音色卡，多輪生成的結果都是不一樣的，這增加了模型的可玩性。

▲ChatTTS的音色抽卡

比較幾次生成的語音，我發現生成速度實在是有點慢，一段50字的文本AI生成語音約用時18s，如果是長文本，那用時也是等比增加的。另外，這個4w小時訓練的版本生成的語音音質比較差，句頭有明顯的雜音、重讀。看來，想直接把這麼強的AI模型生成的音頻直接拿去用，還不行。

如果提供的文本中有數字、英文，模型推理越來越容易產生問題，比如讀不對、吞字之類的，像是“ChatTTS”中的“TTS”，模型根本讀不出來。

然而這些氣口加得有點猛，在歸音的地方有氣口顯得並不適宜；有多個語氣詞的時候，比如“你幹嘛，哼哼哎呦”這句，ChatTTS生成語音展現的情感也比較割裂！這也是模型在情感邏輯表現上的雙面性。

總的來看，ChatTTS最具殺手優勢的便是韻律表現力和情感邏輯了。而模型在細粒度控制上生動但有贅餘，存在着兩面性。此外，穩定性在固定音色、固定語速等方面有很大的提升空間，基本發音很容易出現各種各樣的錯誤。我的總結和各維度的評星如下：

▲在線版本試用總結

據瞭解，ChatTTS主要是從細粒度和韻律上尋求突破升級。如果用上本地部署版本，該模型能夠預測和控制細粒度的韻律特徵，包括笑聲、停頓和插入詞等，我們還可以在文本中加入 [laugh] 和 [uv_break]之類的“笑果”，來增加生動感。

/ 02 / “4w小時版本夠好了”，預計推出“對話”版本

ChatTTS模型經過超過10w小時的訓練，並在B站上展示，在HuggingFace上提供了一個4w小時預訓練的公開版本模型。從這個10w小時版本的視頻中，還是能看出，TTS普遍存在的數據缺失情況，ChatTTS並沒有解決，於是出現了不能處理括號和逗號等標點、吞字等情況，因此後續還需要關鍵詞助手。

不過，滿血狀態的10w小時版本的模型是不開源的。“4w小時的版本效果已經很好，只是網絡小一些，穩定性差一些。”創作團隊2Noise表示，他們保留了10w小時訓練數據的版本模型。

後續工作，他們將繼續從4w小時版本的底模開始，保證生成的語音能被開源的安全模型或Resemble.AI等語音生成工具檢測出來，將工作重心放在高可控、水印以及與LLM的對接上。同時，2Noise在內部訓練了檢測模型，並計劃在未來開放。

▲2Noise表示僅開源4w小時的底模，並預告了“對話”模型（來源：X）

對於2Noise來説，後續除了需要對模型改善音質、氣口和停頓外，還可以在音色克隆上有更多嘗試，以滿足AI遊戲陪聊、AI語音電話、AI配音生成、AI明星伴侶、AI克隆等多種場景。2Noise稱，目前支持音色克隆，但需要更大的數據量。

瑕不掩瑜，ChatTTS在韻律方面超越了大部分開源TTS模型，這一點是顯而易見的。這個最像人聲的AI項目讓我興奮起來，一鍵關注並star！後續會關注一下項目的穩定性、推理速度、訓練難易度和訓練用的數據集。

/ 03 / 以防用户犯罪？壓低音質、摻入明顯錯誤

有一個問題是不能忽略的，ChatTTS開源的4w小時版本模型音質很低，包括在話頭摻入了雜音。

2Noise團隊對這個聲音深度偽造的問題表現出謹慎的態度，團隊稱為了限制ChatTTS的使用，在4w小時模型的訓練過程中添加了少量額外的高頻噪音，並用mp3格式儘可能壓低了音質，以防不法分子用於潛在的犯罪可能。

這邏輯好似在煤氣里加入難聞氣味的氣體，以預警人們注意。

10w小時版本模型的表現讓看客心癢，2Noise卻表示暫時不會公開該版本10w小時的版本。10w小時訓練的ChatTTS模型使用了大量的互聯網數據，並進行了監督微調（SFT），在法律上有一定的風險。

▲官方在B站展示視頻下的置頂評論

誠然，AI語音合成軟件總是伴隨着深度偽造的爭議。不論是寂寂無名的配音演員，還是赫赫有名的明星，都有可能在互聯網環境裏被擅自拿取聲音用作train。

例如，著名演員“寡婦姐”Scarlett Johansson曾拒絕Sam Altman請她配音的請求，而OpenAI為GPT-4o創造了一個與她極其相似的聲音“Sky”。Scarlett在上月末向OpenAI發送律師函後，Open AI才關閉了Sky的語音使用。

一輪又一輪的融資仍佐證了資本市場對AI語音產業的看好。例如2024年1月，ElevenLabs躋身獨角獸，該公司從估值1億美元到估值10億美元，也只過去了半年時間。ChatTTS引發巨量的討論，足以見得人們對於表現亮眼的AI語音產品充滿了好奇與期待，讓我們繼續關注ChatTTS在技術與商業化上的進展。