百度漢語語音識別獲重大突破達世界領先
【環球科技綜合報道】近日,中國人機語音交互領域最權威的學術會議——全國人機語音通訊學術會議(NCMMSC2015)在天津舉辦。會上,百度語音技術部負責人賈磊分享了百度近期在漢語語音識別方面獲得的重大突破。該技術能夠使機器的語音識別相對錯誤率降低15%以上,使漢語安靜環境普通話語音識別的識別率接近97%。此項技術將在百度語音搜索產品上上線。
(百度語音技術部負責人賈磊在NCMMSC2015上介紹百度語音技術取得的重大突破)
一次框架性的創新
百度研發出了基於多層單向LSTM的漢語聲韻母整體建模技術,併成功把連接時序分類(CTC)訓練技術嵌入到傳統的語音識別建模框架中,再結合語音識別領域的決策樹聚類、跨詞解碼和區分度訓練等技術,大幅度提升線上語音識別產品性能。
值得注意的是,該技術創新是“打造基於多層單向LSTM的漢語聲韻母整體建模技術”、“引入CTC技術”、“與語音識別領域的傳統技術相結合”三大方面共同作用的結晶,是一項框架性的創新。該技術的誕生使百度語音識別系統成為目前世界上最先進的漢語語音識別技術。
三大因素助力攻克十年技術困局
LSTM與CTC技術雖已存在很長時間。但二者結合一直沒有在語音工業領域成功應用。此次,百度依靠三大因素——大數據機器學習和語音識別傳統理論結合、創新的算法以及強大的計算能力,經過短短4個月的不斷探索與試驗,在世界範圍內率先克服了漢語領域使用CTC技術訓練單向LSTM的高精度建模難題,成功突破了這十多年的技術困局。
賈磊介紹説:“早在4個月前,百度便開展了對語音技術的創新探索。我們詳細地研究和分析了多種漢語建模單元,並深入探索了不同建模單元的CTC訓練的價值和作用。在嘗試了音節、聲韻母和狀態等不同長度的建模單元之後,最後探索出最適合漢語的聲韻母整體建模。CTC的空白吸收機制和動態邊界尖峯學習能力,可以動態自適應地形成‘target delay’,從而解決單向LSTM模型的右邊信息不完整的問題。”最終,把上述成果一起應用到語音識別的傳統技術框架中,實現了漢語語音識別工業產品技術的實質性提升。
據瞭解,百度研發出的全新訓練算法,更接近工業大數據的產品實踐。對比谷歌2015年9月份於Interspeech 發表的在英文領域的類似研究成果,百度的訓練數據是谷歌的4-5倍,模型訓練參數規模是谷歌的10-20倍。
更深刻的變革正在來臨
如今,百度已經開始使用上萬小時的樣本進行模型訓練。未來,訓練語料量可能會突破100萬小時。語音識別領域的深度學習將進入數百GPU並行訓練的狀態,理論創新和算法技術創新都將圍繞大數據展開。隨着CTC建模技術的普及及專業硬件的大量湧現,語音識別成本大大降低。賈磊表示,此次技術創新只是開始,百度將在語音識別領域繼續發力,語音識別技術必將發生深刻的變革。