百度語音技術新突破磁性男聲品讀小説

2015-11-17

科幻電影《HER》中，男主角愛上了一位搭載人工智能系統的虛擬愛人“薩曼莎”。這段愛情在薩曼莎“開口説話”時便埋下了種子，迷人的聲線、細膩的情感絲毫讓人察覺不出是在跟一個機器對話。近日，百度公司將這項黑科技帶入現實，從此讓機器擺脱一板一眼的“殭屍音”，帶有情感地為你朗讀，和你對話。目前，用户已經可以在手機百度-小説頻道中搶先體驗，選擇朗讀模式下的“磁性男生”，就能擁有專屬的“小説男神”。

百度語音技術部負責人賈磊介紹：“這是百度在語音合成技術上的最新突破。基於百度大數據與深度學習技術優勢，百度研發出新型情感語音合成系統，能夠讓機器擺脱平鋪直敍的發聲，為用户帶來更自然、更具情感表現力、更接近真人朗讀的聽覺體驗。”

此前，語音合成技術領域的研究主要集中與讓用户聽清機器的語言，典型應用如：時間播報、天氣播報、語音導航等。在這方面，百度的漢語拼接語音合成系統和參數合成系統處於業界領先，新聞播報風格的語音合成解決方案已經在大量產品中成功運用。

然而隨着語音人機交互潮流的到來，用户對於語音合成品質的要求逐漸提高。為了給用户帶來優質的聽覺體驗，百度工程師經過長期的技術積累和攻堅，終於在情感語音合成領域取得重大突破：

首先，創新語料生產方式，提升數據規模。傳統錄音語料庫的積累，往往以句子為單位，嚴格控制發聲人錄音的聲調、節奏，導致文章的語義情感無法融入其中。情感語音語料庫的積累，以段落或者篇章為單位，允許發音人基於對文本的理解加入個人自然有感情的語音表達，使得語音中藴含豐富的語義和情感。由於錄音方式更加自然流暢，發音人不易疲勞，大大提升了語料採集效率，擴大了情感語料庫的數據規模。

其次，創新數據處理方式，提高數據處理效率。傳統語料數據處理方式為手工精標，需要耗費大量人力。百度利用機器學習技術實現了數據的自動化處理，完全代替手工，能夠對大量包含情感的語料庫快速進行標註，大大提高了語音合成數據處理的效率。

最為核心的突破是，創新韻律和聲學建模技術，提高情感表現能力。第一，採用百度獨創的多層次雙向LSTM韻律建模技術，實現從文本到韻律情感信息的直接端到端的高精度建模。第二，利用多層雙向LSTM-RNN模型對語義及長時信息的卓越聲學建模能力，將豐富的語義相關信息加入到上下文中，構建文本與語音之間的深層次對應關係，生成富有表現力的模型，使合成的語音具有豐富的情感。

百度語音技術部負責人賈磊認為，傳統語音合成技術，由於對整個語料庫的生成控制過於嚴格，缺乏情感表現力，也難以體現語義在語音中的作用。而且，數據標註過於依賴手工和經驗規則的方法，需要耗費大量的時間和人力進行語料庫標註，客觀上限制了語音合成系統所使用的語料庫的規模，從而限制了最終合成的語音的情感表現力。基於大數據的情感語音合成技術，實現了規模化的語料生產和自動化的數據標註，並充分發掘了深度學習技術在大數據上的處理能力，極大地擴展了語音合成系統所能使用的合成語料庫的體積，使得語音合成系統包含更豐富的情感，探索出了一個全新的語音合成技術框架。未來，語音合成領域的理論創新和算法技術創新，都將圍繞大數據和深度學習展開，語音合成技術必將發生深刻的變革。