汽車人離我們還有多遠_風聞
观察者网用户_241334-2020-04-30 09:22
近年來,受虛擬偶像、賽博朋克及復古合成波風潮的影響,不少普通人都接觸到了聲音合成的相關訊息。其中,語音合成在 AI 和神經網絡算法的加持下,已經展現出了驚人的潛力。或許在不久的將來,我們可以實現兒時擁有自己的擎天柱大黃蜂的夢想。
視頻連接請戳https://mp.weixin.qq.com/s/-g7acuZTHF3OFWcujr-jdA
-文字稿-
人類有強烈的交流本能,因此喜歡與身邊的各種事物説話,甚至不在乎對方有沒有回應的能力。所以,大家也願意開發能與人類交流的智能工具。這樣的產品很多,只不過目前它們聽起來大都還不那麼「智能」。機器在模擬人説話的時候,到底出了什麼問題?
就好比人類嬰兒學習説話的過程,我們粗略的將機器模擬人類「交流」分為三個層次:第一個層次是能説出詞意明確的語句;然後是能正確的表達帶有情緒和隱含意思的語句;最後是能夠結合語境,與人對話,並正確表達自己的意思。
最初,一些人以仿生學為基礎,嘗試用機械裝置來模擬人的發聲器官和聲道。比如由德國工程師里斯(Riesz)在1937年所設計的人造口鼻腔發聲裝置。由於機械在當時難以完整復原整個腔體內各部分的全部運動,尤其是嘴唇的運動,因此後來也有人嘗試先利用該裝置模擬聲帶振動音,再用人工調整共振峯的頻率和帶寬,來得到想要的元音,這被稱為模擬合成法。
由於合成出來的聲音受限於設備材質,就顯得與真人發聲的區別過大。與信息傳輸由模擬信號到數字信號的發展類似,隨後登場的就是基於數字化和計算機科學發展而來的語音合成技術TTS****(Test to speech)。
比如通過大量的真人錄音,收錄各種音素素材,然後根據需求來選擇這些音素,將它們合成為滿足條件的結果。這種方法在理論上天然解決了模擬人類自然發音的問題。最常見的例子是,人們使用語音地圖導航來輔助駕駛。同時,人們建立了基本的方法論——語音模型(聲學系統部分)和語言模型(語言分析部分)。通過組合語音模型和語言模型的概率來判斷一句話的意圖並讓人工智能從庫裏選擇合適的回答。
在語音模型****部分,目前主流的技術方式大致有兩種。前面提到的收錄大量真人錄聲的方法叫做波形拼接法。但是人們隨後發現其中拼接的部分表現不夠自然,而且對音素的覆蓋要求非常高,並不是特別靈活。比如暫時無法獲取新的音素,錄音的預算已經花完等都會影響效果。
所以一些人想到了通過對已有的錄音的頻譜特性參數進行建模,並以此「模擬」庫中未收錄文本的音頻特徵,再通過轉碼器將這些數字信號轉化為音頻,這就是參數語音合成技術。此時,遇到的問題就變成了建模的精細程度——粗糙的模型會使得輸出的音頻帶有嚴重的失真感和機械感;精細的模型則需要大量人力投入進行海量的測試。
在語言模型****部分,則是一個基於語言學去分析語句含義的過程。其做法是,通過統計建模來預測一連串語素對應一句有意義的自然語言的概率。比如,先判斷語種,然後再根據對應的語法規則將一連串語句進行分詞,再將其轉入到不同的模塊進行標準化、標註、多音字消歧等。本質上就是拆解一個人的思維理解的過程。
大腦擅長歸納,即把真實事物,以某些特點作為標準,抽象為一個個顆粒,再通過大量觀察得來的「經驗」來判斷顆粒之間存在的聯繫。在統計學上,也據此提出了「基於觀測,當前行為只受上一個或者幾個行為的影響」的著名假設馬爾可夫鏈。更進一步的,當系統中存在着一些不可被直接觀測,但是與事物之間存在統計學意義相關性的因素時,我們就會用隱馬爾可夫鏈對其進行描述。
比如,你有個朋友在外國讀書,每天都會根據當地天氣決定今天的活動。假設一共有三種狀態:購物、宅家或者遛狗。而我可以通過臉書來觀察到今天他是在哪種狀態,預測當地天氣就成為可能。那麼,顯然在這個例子中的隱馬爾可夫鏈就是「天氣」。
實際生活中,當與問題匹配的「顆粒」更多,人工語音智能就能預測及回答人類的意圖更快更準。
對於語音合成最前沿的領域來説,人類現在可以用神經網絡的方法替代傳統的人工手段對語音和語言模型進行調試。某種程度上,這復現了人的思維對底層結構封裝的過程。
隨着數據庫的不斷積累,計算機算力的不斷增加,這種代際積累所形成的效應將會越來越明顯。直到某一天,人類將發現人工智能真正意義上可以通過圖靈測試,滿足人的功能、甚至是情感上的需求。
人工智能語音目前處於第二個層次日漸完善與第三個層次的初探階段,比如我們在音箱上看到的GoogleHome、Alexa等。現在,這些功能在汽車上也能實現。
蔚來汽車出品的車載人工智能NOMI,在語音模型上,擁有由好萊塢合作配音團隊錄製的16000句以上常用中英語句,以及流暢的語音合成能力;在語言模型上,NOMI通過從超過6000萬條的對話語料庫中持續學習,不斷加強自然語言理解能力。由此可實現近700項語音控制指令,覆蓋大部分車內場景,包括部分自動輔助駕駛功能。
區別於一般的人工語音智能助手,NOMI還擁有表情和動作。90套生動表情都基於人類情緒設計;即將在全新蔚來ES8上首次搭載的全圓AMOLED屏幕,更讓其臉部圓潤真實。在量身定製的電機和運動算法支持下,它的運動軌跡平順細膩,如同真實生物般活靈活現。當不同座位上的乘客叫它時,通過車內陣列式麥克風系統進行聲源定位後,NOMI帶着表情的小腦袋就會快速轉向相應方向,回應對方的需求。
考慮到人工智能的發展,設計之初,蔚來就將NOMI納入了FOTA遠程車輛軟件升級體系。隨着用户數據的豐富、深度學習模型的迭代,NOMI將逐步向「能預測、有情感」的最終目標不斷前進,用户會獲得一個真正「懂你」的人工智能夥伴。