與清華合作,支持22種中文方言的語音大模型來了!
张睿佳

3月26日,一篇名為Dolphin —— 一款專為東方語言設計的語音大模型(Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages)的論文在arXiv (康奈爾大學圖書館運營的一個開放獲取的預印本平台)上發表。
目前,Dolphin 的base與small版模型與推理代碼已經全面開源。

據悉,該項目來自海天瑞聲和清華大學電子工程系語音與音頻技術實驗室的合作,兩者共同推出了支持40個東方語種,以及22種中文方言(含普通話)的語音識別系統。
在數據方面,該系統的訓練數據總時長21.2萬小時,其中海天瑞聲高質量專有數據13.8萬小時,開源數據7.4萬小時。
性能層面,通過與OpenAI推出的Whisper在同等尺寸模型的比較,根據參考三個多語言數據集(海天瑞聲、Fleurs、CommonVoice)的平均值得出:
Dolphin base版模型的WER(詞錯率)為 31.8%,而 Whisper large-v3 版模型的詞錯率為 52.3%。從這個角度看,儘管dolphin基礎版模型的規模不到 Whisper large-v3 版模型的十分之一,但在針對這些語言進行評估時,其詞錯率與 Whisper large-v3 模型相比相對降低了 39%,這凸顯了dolphin的性能優勢。

具體技術上,Dolphin網絡結構基於CTC-Attention架構,E-Branchformer編碼器和Transformer解碼器,並引入了4倍下采樣層。
CTC-Attention架構能夠提升模型的識別準確性和效率;Branchformer編碼器採用並行分支結構,能夠更有效地捕捉輸入語音信號的局部和全局依賴關係,為模型提供了更豐富的特徵表示;Transformer解碼器確保系統能夠提供高質量的文本輸出;4倍下采樣層可以減少輸入特徵的序列長度,從而加速計算過程,同時保留關鍵的語音信息,確保模型的識別效果不受影響。
此外,Dolphin還引入了兩級語種標籤系統,第一個標籤指定語種(例如、),第二個標籤指定地區(例如、)。
這種分層方法使模型能夠捕捉同一種語言內不同方言和口音之間的差異,以及同一地區內不同語言之間的相似性,從而提高了模型區分密切相關的方言的能力,並通過在語言和地區之間建立聯繫增強泛化能力。
海天瑞聲表示,通過共享技術成果,希望能夠吸引更多的開發者和研究機構參與到東方語言語音識別的研究中來,共同推動技術進步。
本文系觀察者網獨家稿件,未經授權,不得轉載。