搜狗推出“唇語識別”技術打造多形態的人機交互

2017-12-14

從鍵盤打字到觸控屏，再到現在的語音交互和手勢交互，人工智能技術的發展，正在促使人機交互方式向更加多元化方向變革。而今天，國內知名互聯網公司搜狗又推出了一種人機交互新技術——唇語識別，這也是業內首個公開演示的唇語識別系統，通過機器視覺識別，不用聽聲音，僅靠識別説話人唇部動作，就能解讀説話者所説的內容。

與語音識別不同，唇語識別是一項基於機器視覺與自然語言處理於一體的技術，因此在研發難度上比語音識別大得多。據悉，搜狗首創了複雜端到端深度神經網絡技術進行中文唇語序列建模，通過數千小時的真實唇語數據訓練，另外得益於搜狗在自然語言處理方面的強大優勢，最終取得了業界領先的唇語識別效果。在非特定人開放口語測試集上，搜狗唇語識別系統已經達到60%以上的準確率，超過google發佈的英文唇語系統50%以上的準確率，在垂直場景如車載、智能家居等場景下甚至已經達到90%的準確率。在剛結束不久的烏鎮世界互聯網大會上，搜狗唇語識別技術亮相，在業內大多數唇語識別技術實用性尚待考證的環境下，成功完成了業內首箇中文唇語識別系統的公開演示，引起廣泛關注。

當國內大部分企業都扎堆聚集在智能語音、圖像識別等領域時，搜狗唇語識別技術的推出無疑將引領整個行業進入一個全新的發展方向。作為人機交互的形式之一，未來唇語識別技術可以輔助語音交互及圖像識別，在日常生活、安防、公益等各個領域實現廣泛應用。比如在車載場景下，周圍噪音過大時會對語音指令產生干擾，通過唇語識別技術則可以規避干擾，保證人車交互的準確性和穩定性，日常不便發聲的公共場所也可以保證説話內容的私密性;在安防領域，由於目前多數監控只有攝像頭沒有麥克風，往往只能看清嘴型卻不知道在説什麼，給案情分析帶來很多難題，而唇語識別技術可以幫助公安人員獲取重要的講話信息，為公共安全提供有效支持。除此之外，唇語識別技術還能發揮巨大的公益價值，幫助先天性聽障人羣或老年人，讓他們更好地理解和表達自己。

作為一家技術驅動型的企業，近年來搜狗一直致力於自然語言的研究，目前在語音識別、語義理解、機器翻譯等方面均取得了行業領先的成果並實現產品落地，此次推出唇語識別技術，不僅會推動整個AI行業的技術革新，也意味着搜狗在AI領域的技術實力達到了更高的發展水平。

時至今日，人工智能的發展速度已經完全超出了我們的想象，那些電影裏的炫酷黑科技正在一步步成為現實出現在我們的生活中。隨着AI技術的發展，相信在不遠的將來，唇語識別也能像語音識別、圖像識別一樣成為我們生活中隨處可見的一部分。