這顆芯片或讓手勢交互進入主流_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2019-10-22 17:14
上週,谷歌在其Made by Google發佈會上一口氣發佈了數款新硬件,包括最新的Pixel 4手機,Pixel Bud 2智能耳機,Nest Mini智能音箱等。這些新硬件除了形態上與傳統硬件的不同之外,在用户交互上也有創新之處,而這些新的用户交互特性也讓相關芯片進入我們的視野。
新硬件形態需要新的交互方式上週谷歌的硬件發佈會是近來一系列互聯網公司硬件發佈會的延續。在谷歌之前,亞馬遜和微軟也發佈了其新硬件。
如果我們仔細分析這些互聯網公司發佈的硬件,我們首先看到的是互聯網公司希望從傳統智能硬件格局中突圍的決心。這些互聯網公司發佈的新硬件更注重智能化,往往會使用一些非傳統的硬件形態(例如亞馬遜的智能眼鏡)配合人工智能來實現讓用户耳目一新的效果。互聯網公司做硬件的最終目標還是希望用户能通過硬件作為入口來使用自己的互聯網服務,因此即使每個硬件的出貨量都不大,但是隻要能帶來一定的流量就算成功。因此,我們會看到亞馬遜和谷歌都採用了類似散彈槍的打法,即一次發佈許多款不同的硬件,而並非集中所有資源去開發一兩款重點硬件。
如前所述,這類互聯網公司開發的新硬件擁有全新的形態,而其最終目的是希望和用户做交互並且把用户接入到互聯網公司的服務中去。那麼,如何在這些新的硬件形態上搭配新的用户交互界面就變得非常重要。目前主流的觸摸屏交互方案已經無法滿足新形態智能硬件的需求,因此探索下一代用户接口以及相關的硬件芯片就勢在必行。
終端語音交互在新的用户接口中,目前最廣為接受的是語音交互。語音交互正式進入大規模消費應用始於蘋果推出Siri,之後亞馬遜的Echo系列智能音箱的發佈則真正點燃了整個消費語音交互市場。谷歌也不甘落後,在推出Google Home系列智能音箱之後,這次發佈會上發佈的Pixel 4手機、Pixel Bud 2智能耳塞和Nest Mini都擁有最新的語音交互接口,同時擁有相關的機器學習芯片支持。
那麼,谷歌最新發布的硬件中的語音交互與之前的語音接口有什麼不同呢?我們認為,其最大的不同就是強調終端計算,將語音交互的計算儘可能都放在終端完成,而無需傳輸到雲端。從功能上來説,使用終端計算的語音交互接口可以滿足在無網絡連接的時候也能完成基本的交互,從而大大拓寬了實用的場景。從性能上來説,網絡傳輸會引入很大的能量消耗和延遲,因此如果能在本地做大部分語音交互運算,則可以大大延長智能設備的電池使用時間並在更短時間內就完成用户需求響應以提升用户體驗。最後,從合規角度來看,目前對於互聯網公司對於用户數據的監管越來越多,因此把語音交互運算在本地完成而非上傳到雲端就可以儘可能避免侵犯用户隱私的嫌疑。
從計算複雜度來説,本地語音交互接口可以分成兩類,**一類是低複雜度計算(例如關鍵詞識別),**這類計算的複雜度不高,但是需要能消耗盡可能低的能量,且延遲需要儘可能小。**另一類計算複雜度較高(例如實時語音轉錄成文字以及Assistant類需要對用户的語音輸入做一定語義理解的任務)。**在這次發佈會中,Pixel Bud 2的語音交互接口就屬於前一種。Pixel Bud 2語音交互的主要特性是可以根據用户的指令去完成發送短信、閲讀短信、播放音樂等功能。根據谷歌的説法,Pixel Bud 2內部包含了一塊專用的機器學習芯片以完成這類語音接口。仔細分析Pixel Bud 2這些智能助手的實現方式後我們認為Pixel Bud 2的語音助手主要作用是識別用户的語音指令,並且通過藍牙連接的手機來完成相關指令的需求。例如,如果用户通過語音給出“閲讀短信”的指令,則智能耳機裏的語音助手首先需要識別出用户是在下語音指令,其次需要識別出語音指令的大致內容(“閲讀短信”)並且將指令發送給手機,之後手機端的TTS算法把短信轉換成聲音再通過藍牙傳送給耳機並播放。在這樣一個過程中,耳機端的語音接口關鍵詞識別算法需要完成較傳統單一關鍵詞喚醒更復雜的功能。
除了Pixel Bud 2之外,谷歌在Nest Mini和Pixel 4上也使用了離線語音模型來支持語音接口。按照谷歌官方的説法,在Nest Mini上的專用機器學習加速芯片可以讓Google Assistant更快完成相應,而在Pixel 4手機上的離線語音模型則可以完成更復雜的語音交互,例如離線語音轉錄成文字,複雜的多輪語音指令等等(例如可以讓assistant去查找一張圖片,並且把它發送給某個聯繫人)。
從技術上來説,第一類低複雜度的語音關鍵詞識別算法目前通常會使用卷積神經網絡來實現。相較於使用在計算機視覺應用中的卷積神經網絡,語音接口中的卷積神經網絡對於性能的需求較低,然而由於應用場景對於硬件的限制(例如耳機中的芯片不太可能搭配DRAM),如何在硬件成本最低、功耗最小的條件下完成高精準度的關鍵詞識別仍然具有挑戰性。例如,為了最小化功耗,會需要芯片中的相關模組工作在非常低的電源電壓下,甚至比Fab提供的最低電壓還要低,這就給低功耗設計流程帶來了挑戰。此外,由於這類應用中無法搭載DRAM,因此對於神經網絡模型帶來了不少挑戰,如何在模型尺寸和精確度之間達成一個較好的平衡需要很多工作。總體而言,這類設計需要做軟硬件結合設計以保證合理的精確度和儘可能低的功耗。根據現有的消息,我們估計Pixel Bud 2中使用的機器學習專用芯片很可能是在傳統TWS無線耳機芯片上再集成了一塊DSP或者谷歌自己的IP來完成這樣的低功耗計算。由於對於成本和硬件尺寸的限制,我們認為未來針對該方向的超低功耗語音關鍵詞交互芯片方案最有可能是以IP的形式存在,或者集成在耳機的主控芯片中,或者和前端麥克風集成在一起。
而Pixel 4手機上的語音交互屬於典型的高複雜度語音模型(第二類計算),這類模型往往會需要使用循環神經網絡而非卷積神經網絡。雖然循環神經網絡的計算主要還是矩陣計算,但是如何優化模型和片上內存以儘量減少內存訪問帶來的消耗仍然是最關鍵的設計要點。與卷積神經網絡不同,循環神經網絡中的數據複用程度並不高,因此如何開發和優化相應的模型/硬件必須要使用和卷積神經網絡不同的方法,這也是目前循環神經網絡計算硬件的主要挑戰。相較於傳統的卷積神經網絡,循環神經網絡的硬件支持在業界目前還處於較早期的研發階段,但是相信隨着這類複雜離線語音交互應用的普及,會有越來越多的設計方案和芯片解決方案出現。我們估計未來可能的解決方案有幾種形態:首先是對於功耗和性能要求並不嚴格的場合,通過把循環神經網絡的模型設計成非常小的尺寸,可以通過類似DSP或者NEON這類支持矩陣加速的IP模塊去做計算。這種方法的好處是可以快速部署,只需要設計軟件即可,硬件上不用做太大改動,但是問題是沒法優化循環神經網絡對於內存訪問。在對於性能和功耗有更高需求的場合,則可望會出現更專用的硬件架構以完成加速。例如,目前用於語音應用的循環神經網絡往往稀疏度較高,因此通過設計支持稀疏矩陣存取和運算的專用加速器可望能實現更高的性能和更低的功耗。
總而言之,隨着語音接口的普及,我們可望在更多語音相關的硬件上看到DSP類IP的出現,同時隨着離線語音複雜交互的普及,我們可望會看到專用的語音加速芯片/IP。
隔空手勢操作除了語音交互之外,谷歌此次發佈的Pixel 4手機上的另一個亮點是使用毫米波雷達來實現隔空手勢交互。
Pixel 4上的毫米波雷達芯片系原谷歌先進研究項目(ATAP)project soli的商業化,該毫米波芯片使用60GHz頻段,並且可以用雷達的方法去檢測到目標與手機之間的距離變化,從而實現隔空手勢操作。
具體來説,雷達傳感器芯片的技術原理是首先發射出電磁波,而發射的電磁波經過用户手的反射回到傳感器端,就能根據回波來檢測用户手的位置和動態,並藉此完成三維非接觸手勢檢測。
Pixel 4上雷達芯片使用的是57-64GHz的頻段,理論上可以實現毫米級別的分辨精度。根據之前Project Soli發佈的毫米波雷達傳感芯片(屬於此次使用在Pixel 4中雷達芯片的原型版本),芯片大小約為8mm x 10mm, 芯片上還有天線陣列(綠色框內)用來實現波束成型,根據官方信息該芯片上集成了四個發射機和兩個接收機,使用波束成形來提升分辨率。
使用毫米波雷達也有侷限性。主要問題就是硬件對於尺寸和功耗的需求——毫米波雷達如果需要做高精度高分辨率檢測需要使用複雜的天線和/或多個雷達收發陣列。在60GHz頻段上,複雜的天線陣列的體積很大,而如果使用多個雷達收發陣列則會大大增加系統功耗。本次媒體對於Pixel 4中毫米波雷達的測評中分辨率並不高,據説也是因為Pixel 4硬件設計中留給雷達的空間過小以至於無法安放下能實現高分辨精度的雷達收發機陣列和天線陣列。當然,這個問題可望在之後能通過優化硬件設計來解決。
事實上,使用手勢操作智能設備一直是業界開發的方向。傳統的方法是使用攝像頭結合機器視覺的方法。2D攝像頭難以檢測到手勢在深度方向的變化,因此限制了交互。微軟 Xbox的Kinect使用ToF 3D攝像頭的方法來支持手勢操作,但是3D攝像頭的使用環境會受到限制:機遇結構光的方案速度太慢,而基於ToF的方案在明亮的環境中性能會打折扣。除了視覺方案之外,超聲波也是一個可行的方案。超聲波方案與毫米波方案原理相似,只是超聲波方案使用的是超聲波而不是電磁波。超聲波方案的優勢是功耗較小(可以小於1mW而毫米波方案的功耗在10-100mW),缺點是必須使用CMOS工藝無法實現的超聲波元件,而毫米波方案可以完全使用CMOS電路實現,集成度較高。因此,在智能設備的隔空交互領域,毫米波雷達和超聲波在具體技術指標上可以説是各有千秋。如果把視角拉遠一些,我們則認為基於電磁波和毫米波的方案有更大的可擴展性。我們認為,在手機中加入毫米波雷達只是這類交互的第一步。基於電磁波(包括毫米波)的交互將在未來幾年內出現在更多的智能電器中。除了手勢交互之外,電磁波還可以檢測房間內的人員情況和物體識別,並且有望能無縫與WiFi設備相銜接,因此省去了安裝攝像頭的麻煩和對於隱私問題。因此,用於交互應用的射頻芯片有望成為未來幾年內的一個新品類。
展望未來,用於人機交互的毫米波雷達主要需要克服模組尺寸和功耗的瓶頸,為此必須優化雷達本身設計提高信噪比,從而可以在減少天線尺寸/陣列中收發機數量的情況下仍然能實現分辨精度;或者優化天線設計,以滿足在小尺寸下仍然能提供很低的衰減。我們認為,隨着這些技術瓶頸被逐漸突破,我們有望看到更多基於毫米波的交互方案出現在智能設備中。