百度語音技術新突破 磁性男聲品讀小説
科幻電影《HER》中,男主角愛上了一位搭載人工智能系統的虛擬愛人“薩曼莎”。這段愛情在薩曼莎“開口説話”時便埋下了種子,迷人的聲線、細膩的情感絲毫讓人察覺不出是在跟一個機器對話。近日,百度公司將這項黑科技帶入現實,從此讓機器擺脱一板一眼的“殭屍音”,帶有情感地為你朗讀,和你對話。目前,用户已經可以在手機百度-小説頻道中搶先體驗,選擇朗讀模式下的“磁性男生”,就能擁有專屬的“小説男神”。
百度語音技術部負責人賈磊介紹:“這是百度在語音合成技術上的最新突破。基於百度大數據與深度學習技術優勢,百度研發出新型情感語音合成系統,能夠讓機器擺脱平鋪直敍的發聲,為用户帶來更自然、更具情感表現力、更接近真人朗讀的聽覺體驗。”
此前,語音合成技術領域的研究主要集中與讓用户聽清機器的語言,典型應用如:時間播報、天氣播報、語音導航等。在這方面,百度的漢語拼接語音合成系統和參數合成系統處於業界領先,新聞播報風格的語音合成解決方案已經在大量產品中成功運用。
然而隨着語音人機交互潮流的到來,用户對於語音合成品質的要求逐漸提高。為了給用户帶來優質的聽覺體驗,百度工程師經過長期的技術積累和攻堅,終於在情感語音合成領域取得重大突破:
首先,創新語料生產方式,提升數據規模。傳統錄音語料庫的積累,往往以句子為單位,嚴格控制發聲人錄音的聲調、節奏,導致文章的語義情感無法融入其中。情感語音語料庫的積累,以段落或者篇章為單位,允許發音人基於對文本的理解加入個人自然有感情的語音表達,使得語音中藴含豐富的語義和情感。由於錄音方式更加自然流暢,發音人不易疲勞,大大提升了語料採集效率,擴大了情感語料庫的數據規模。
其次,創新數據處理方式,提高數據處理效率。傳統語料數據處理方式為手工精標,需要耗費大量人力。百度利用機器學習技術實現了數據的自動化處理,完全代替手工,能夠對大量包含情感的語料庫快速進行標註,大大提高了語音合成數據處理的效率。
最為核心的突破是,創新韻律和聲學建模技術,提高情感表現能力。第一,採用百度獨創的多層次雙向LSTM韻律建模技術,實現從文本到韻律情感信息的直接端到端的高精度建模。第二,利用多層雙向LSTM-RNN模型對語義及長時信息的卓越聲學建模能力,將豐富的語義相關信息加入到上下文中,構建文本與語音之間的深層次對應關係,生成富有表現力的模型,使合成的語音具有豐富的情感。
百度語音技術部負責人賈磊認為,傳統語音合成技術,由於對整個語料庫的生成控制過於嚴格,缺乏情感表現力,也難以體現語義在語音中的作用。而且,數據標註過於依賴手工和經驗規則的方法,需要耗費大量的時間和人力進行語料庫標註,客觀上限制了語音合成系統所使用的語料庫的規模,從而限制了最終合成的語音的情感表現力。基於大數據的情感語音合成技術,實現了規模化的語料生產和自動化的數據標註,並充分發掘了深度學習技術在大數據上的處理能力,極大地擴展了語音合成系統所能使用的合成語料庫的體積,使得語音合成系統包含更豐富的情感,探索出了一個全新的語音合成技術框架。未來,語音合成領域的理論創新和算法技術創新,都將圍繞大數據和深度學習展開,語音合成技術必將發生深刻的變革。