阿里巴巴和國內外高校研究人員開發新讀唇語AI,準確率大升_風聞
TechEdge科技边界-2019-12-05 23:54
首先需要理解是,人工智能和機器學習算法能夠從視頻中讀取唇語並非首創。早在2016年,來自谷歌和牛津大學的研究人員就詳細介紹了一個系統,該系統可以以46.8% 的準確率為視頻片段添加註釋,其準確率超過了專業人類讀唇器的12.4%。但即使是最先進的系統也難以克服唇動中的模糊性,使其性能無法超越基於音頻的語音識別。
為了追求更高效的系統,阿里巴巴、浙江大學和史蒂文斯理工學院(Stevens Institute of Technology)的研究人員設計了一種方法,稱為 LIBS(Lip by Speech),利用從語音識別器中提取的特徵作為補充線索。他們説,在衡量準確性的在兩個行業標杆基準測試上,它以7.66% 和2.75% 的字符錯誤率優於基線。
LIBS 和其他類似的解決方案可以幫助那些聽力不好的人觀看沒有字幕的視頻。據估計,全世界有4.66億人遭受聽力喪失,約佔全世界人口的5%。根據世界衞生組織的數據,到2050年,這個數字可能會超過9億。
LIBS 從人類説話者的視頻中提取有用的音頻信息,在多個尺度上,包括序列級、上下文級和幀級。然後通過識別它們之間的對應關係將這些數據與視頻數據對齊(由於不同的採樣率和有時出現在開頭或結尾的空白,視頻和音頻序列具有不一致的長度) ,並利用濾波技術來精煉特徵。
LIBS語音識別器和唇讀器都構建於一種基於注意的序列到序列的體系結構,這是一種機器翻譯方法,它將序列(即音頻或視頻)輸入映射到具有標記和注意值的輸出。
研究人員對他們進行了上述語言和 LRS2語言的訓練,其中包含了超過45,000個來自 BBC 的口語句子,還有 CMLR 語言,這是中國最大的普通話唇讀語料庫,有超過100,000個來自中國網絡電視網的自然句子(包括超過3,000個漢字和20,000個短語)。
研究小組指出,由於某些句子太短,該模型難以在 LRS2數據集上獲得“合理”的結果 (譯碼器很難從少於14個字符的句子中提取出相關信息)。然而,一旦對長度最多為16個單詞的句子進行預訓練,解碼器就可以利用上下文層面的知識,提高 LRS2數據集中句子末尾部分的質量。
“LIBS 減少了對無關框架的關注,”研究人員在一篇描述他們工作內容的論文中寫道,“幀級知識提取進一步提高了視頻幀特徵的鑑別能力,使注意力更加集中。”