智能語音推動雙11進化:搶紅包從動手到張嘴
【環球網科技綜合報道】天貓雙11狂歡節再一次創造了新的商業奇蹟,也直接推動了機器智能技術邁向新的高度。11月14日,據阿里巴巴披露,雙11期間共處理了超9000萬次語音請求,其中8500多萬次語音識別請求,超過300萬次語音合成請求。
智能語音技術的廣泛應用,對於消費者來説最直觀的體驗便是搶紅包從動手變成了動嘴。語音密令紅包、店鋪問答紅包等隨處可見。面對海量的用户訪問,語言又是各具地方特色,如何做到快速理解、準確響應呢?阿里巴巴iDST智能語音團隊為此提供了技術支持,並將其集成到阿里雲ET當中。
以店鋪問答場景為例,研究人員為這些店鋪定製了專屬語音模型,可以滿足各類商家動態調整的需求。整個定製過程也實現了自動化,可分鐘級的將模型定製上線,突破傳統天級甚至周級的語音識別模型訓練上線週期。
正是基於這樣的技術,確保了系統對新詞、未知詞識別的準確率。即使是一家賣光學儀器的店鋪設置的專業問答,人工智能也能聽的懂。
在雙11晚會的“明星到家”活動中,很多觀眾可以看到明星能夠親臨你家並能與你互動。但其實,這並非是明星提前錄製的聲音,而是人工智能在模仿明星説話。在這個項目中,明星只需要錄製200句話便可以完成對人工智能的訓練。之後,人工智能就可以想説什麼説什麼了,幾乎做到了以假亂真。
為此,研究人員使用了基於線性變換和低秩分解的神經網絡説話人自適應技術,即錄製説話人的少量句子,就能發出該説話人的聲音。
雖然普通消費者是第一次體驗這樣的技術,但事實上這些技術已經在多個垂直領域落地。iDST將這一技術集成到阿里雲ET上後,已經在法庭庭審識別、智能客服、視頻審核和字幕、聲紋驗證、物聯網等多個場景成功應用。全國有近300家法院和超過6000家法庭在使用ET,每年有超過1.2億通客服電話由ET在協助人類接聽。