震驚!百度微軟的漢語英語識別準確率已分別超人類
【環球科技綜合報道】近日,微軟宣佈英語的語音識別轉錄詞錯率僅5.9%,達到了專業速錄員水平超越了人類。百度首席科學家吳恩達(Andrew Ng)發推特對此表示恭賀:“在2015 年我們就超越了人類水平的漢語識別;很高興看到微軟在不到一年之後讓英語也達到了這一步。”時隔一年,百度、微軟兩大人工智能科技巨頭先後分別在漢語、英語語音識別研究方面取得了超越人類的成果,引發業界轟動。
據悉,語音識別並不算是一個新興的行業,從20世紀70年代賈里尼克教授,開始基於統計法和數據建立模型後,語音識別有了巨大飛躍。近年來,隨着數據量的豐富和計算能力的提升,語音識別行業迅速崛起。據TechCrunch 統計,僅美國至少就有26 家公司在開發語音識別技術。美國眾多企業在技術上多年的積累使之佔據了絕對的行業優勢,但中國互聯網企業百度近年來在語音識別技術上持續發力,在漢語語音識別方面取得了領先世界的成績,已成為該研究領域當之無愧的領頭羊。
百度Deep Speech 2 端對端架構
(中文有6000 多個字符,英語有29 個字符)
作為中國最大的搜索引擎公司,百度收集了大量漢語(尤其是普通話)的音頻數據,百度採用數千小時進行實驗的預研,並應用到數萬小時的語音產品數據庫,這給Deep Speech 2 技術成果提供了基本的數據優勢。在該技術首次發佈時,百度研究院硅谷人工智能實驗室(SVAIL)就在arXiv 上發表了一篇論文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin(Deep Speech 2:端到端的英語和漢語語音識別)》,介紹了百度的研究成果。吳恩達表示其識別的精度當時已經超越了Google Speech API、wit.ai、微軟的Bing Speech 和蘋果的Dictation 至少10 個百分點。據百度表示,到今年2 月份時,Deep Speech 2 的短語識別的詞錯率已經降到了 3.7%!這意味着Deep Speech 2 轉錄某些語音的能力「基本上是超人級的」,能夠比普通話母語者更精確地轉錄較短的查詢。
值得一提的是,儘管Deep Speech 2 在漢語上表現非常不錯,但其最初實際上並不是為理解漢語訓練的。百度美國的人工智能實驗室負責人Adam Coates 説:“我們在英語中開發的這個系統,但因為它是完全深度學習的,基本上是基於數據的,所以我們可以很快地用普通話替代這些數據,從而訓練出一個非常強大的普通話引擎。”
百度提出的端到端的深度學習(end-to-end deep learning)方法或者將很快實現更多複雜語種的識別問題。該方法用神經網絡完全替代了人工設計組件的流程,端到端學習讓可以處理包含噪雜環境、口音和不同語言的許多不同的語音,所以該技術既可以被用於識別漢語語音,也可以被用於識別英語語音。
對比一年之前吳恩達所説:“SVAIL 已經證明我們的端到端深度學習方法可被用來識別相當不同的語言。我們方法的關鍵是對高性能計算技術的使用,相比於去年速度提升了7 倍。因為這種效率,先前花費兩週的實驗如今幾天內就能完成。這使得我們能夠更快地迭代。”相信經過一年的技術迭代,Deep Speech 2已經“默默”創造了新的奇蹟。在語音識別領域,百度、微軟等巨頭的各自發力,將加速用技術跨越語言鴻溝的進程,重建通天的“巴別塔”。