用人工智能技術保護方言——從武漢話轉普通話談起_風聞
一洗闲愁十五年-2020-03-21 20:07
來源:科學網 中國科學報 作者:趙廣立 時間:2020/3/20
原文網址: http://news.sciencenet.cn/htmlnews/2020/3/437203.shtm
“克受”“陡子脹”“握心”“忒發麻”……當援鄂醫護人員面對病患用武漢本地話表述症狀時,溝通效率難免大打折扣。瞄準這一痛點,2月21日,訊飛輸入法緊急上線了“武漢話轉普通話”功能。該功能不但能把病人所説的武漢話識別為文字,還能以普通話自動播報,為醫生迅速判斷病情、對症治療大開方便之門。
“從2月12日瞭解和瞄準這個需求,到上線這項功能,訊飛輸入法團隊前後開發的時間窗口不到10天。”輸入法業務部總經理程坤在接受《中國科學報》專訪時説,開發過程並不像時間上看起來的那樣簡單,武漢話不像粵語、東北話等使用人羣廣泛,在語料收集、醫學專用語言訓練等方面,都有不少挑戰。

“武漢話轉普通話”緊急上線
在醫療救助過程中,很多病患習慣説武漢話,尤其上年紀的老年人只會説方言,這讓來自天南海北的醫療隊有些犯愁。2月初,一個由多所高校發起的“戰疫語言服務團”誕生,專門解決醫患在溝通中的方言障礙。訊飛輸入法團隊也參與其中。
程坤告訴記者,對武漢話的識別和轉換,訊飛輸入法平台早已有些積累,但多為日常生活用語,難以滿足醫療問診場景下的深度對話交流。要滿足條件,他們必須要儘快收集到足夠多的醫療場景下的方言語料數據,然後通過專家標記讓人工智能(AI)儘快“學習”這些表達。
“我們當時想了很多辦法。一方面,通過訊飛在武漢的子公司發動人們收集醫療場景下的語料數據;另一方面,我們在線上發佈了一個眾包任務,向熟稔武漢話的人們眾籌他們的聲音。”程坤説,就這樣,訊飛輸入法在最短的時間內蒐集到了足夠的語料。
根據眾籌來的語料,加上訊飛與中國聲谷共建的“中國方言庫”已有的累積,科大訊飛研究人員很快對醫用和日常對話場景進行標註,在短時間內完成了武漢話與普通話對齊音頻。程坤錶示,儘管武漢話轉普通話的功能所覆蓋的人羣不似粵語等廣泛,但上線該功能也得到了非常積極的反饋。同時,通過遷移學習模型訓練,該功能的開發上線還有效地提升了方言轉普通話的效果。
“方言保護計劃”持續行動
武漢話轉普通話的功能,是人工智能用於方言識別的一個應用案例。在它的背後,是一項啓動於2017年、名為“方言保護計劃”的公益項目。
“訊飛輸入法推出‘方言保護計劃’,就是希望用人工智能技術實現方言永久留存,同時服務於人們打破方言交流的障礙。”程坤對《中國科學報》説,方言藴含着燦爛的傳統文化,承載着人與人之間的情感:“隨着城鎮化的加速,來自不同地區人們的交流日益加深,我們不希望方言文化在這個進程中慢慢消失。”
語言的流逝速度可能遠超人們想象。據聯合國教科文組織數據,目前世界上的語言大約有6000~10000多種,而其中大部分語言或將於本世紀末消失。在我國130多種語言中,有半數(68種)語言的使用人口在萬人以下,其中有48種使用人口在5000人以下、25種使用人口不足千人。
“如果不能有效保護方言,我們將永久失去完整記錄人類文化遺產的機會。”程坤説,這也是“方言保護計劃”的意義——該計劃希望通過全民參與共建“中國方言庫”的形式,利用人工智能加快推進方言保護,為世界留下多彩鄉音。
程坤介紹説,現在已經有63萬人上傳了超過110萬條與文字對應的方言發音,這也幫助科大訊飛實現了23種方言的識別和11種方言的語音合成,基本上覆蓋了中國主要的方言地區。
然而,正所謂“百里不同俗,十里不同音”,相比於中華民族廣袤的地域文化傳承和積累,僅“基本覆蓋”還遠遠不夠。
“現階段,一地不同的方言之間的個性化差異,很多情況下只能暫時以一定的魯棒性將其劃分為一種方言,我們希望通過方言保護計劃,動員更多的力量可以做的更精細一些。”程坤説,這一方面需要不同方言的語料支持,另一方面需要更多語言文字研究者從規律上、語言本質上發掘不同方言之間的異同。
這意味着,相對於已完成的工作,未來方言保護要走的路仍將是一項巨大的系統工程。
程坤告訴記者,希望更多高校和研究機構中研究學者、各地方言保護的社會團體、民間的語言愛好者、以及廣大方言使用者通過方言保護計劃,形成一股方言保護的合力。
進一步煥發方言生命力
方言保護之後,如何進一步煥發生命力?程坤認為,利用人工智能不僅能夠實現方言的永久留存,也為傳承和發揚方言文化提供了更多可能。
“我們可以把方言識別、合成等能力開放出來,讓更多合作伙伴開發出各種方言智能語音產品,在解決方言用户溝通障礙的同時,打破場景限制,讓方言延伸向更多的文化娛樂領域。”程坤説,訊飛正逐步將相關技術開放出來,供開發者調用。
“我們希望通過自己在方言保護做出的實際行動,呼籲更多的專家學者、方言愛好者、普通用户加入到方言保護計劃中來,大家一起攜手去傳承、感受方言文化。”程坤説。