紫光展鋭M6780丨一語即達，“聲”臨其境_風聞

科闻社-科闻社官方账号-天助自助者2小时前

2024-01-31

在前面四期，紫光展鋭針對M6780的顯示技術進行了系列揭秘。雖名為“智能顯示芯片”，但M6780的魅力遠不止於超高清智能顯示，更有智能語音交互功能，助力打造數字世界的交互新體驗。

智能語音技術是一種基於人工智能和語音識別技術的創新領域，它使得智能終端能夠理解和處理用户的語音指令及交流。在智能家居和物聯網領域，隨着智能家居設備的普及和用户對便捷交互的需求增加，智能語音技術成為人們控制設備、查詢信息、實現家居數字化的主要方式之一。

紫光展鋭M6780從用户角度出發，在智能語音技術領域進行技術創新，帶來了全面的體驗升級！

完整端側智能語音解決方案-讓交互“更智能”

語音助手如今已是智能終端的標配，M6780作為紫光展鋭首款智能顯示芯片集成了完整端側智能語音方案。通過紫光展鋭自研的多麥克風陣列分離降噪、智能語音喚醒識別、端側命令詞識別等技術，讓芯片可以聽得清、聽得懂、能執行。

陣列分離降噪技術可以實現對外界干擾噪聲和回聲的抑制消除，讓設備“聽得清”；智能語音喚醒識別技術，確保設備“聽得懂”。該方案（詳見圖二）完全集成在端側，相對於雲端喚醒識別算法，交互延遲更低，無需雲端計算資源節省成本，且無隱私風險。

多麥克風陣列分離降噪技術

在日常生活中，當電視正在播放電視節目，如果用户想語音控制電視，在嘈雜環境下設備如何才能夠聽清用户指令？這便需要回聲消除技術——針對電視多揚聲器、大音量的特性，紫光展鋭研發出多通道立體聲回聲消除技術和自適應殘留回聲抑制技術，共同保證雙工交互場景的成功率。

針對家居場景中，噪聲類型多、混響大、拾音距離遠信噪比差的問題。紫光展鋭將盲源分離和波束形成技術深度結合，實現了兩者算法短板的互補，兼容了二者的優勢。即使在多幹擾的嘈雜環境也可以保障用户流暢交互。

M6780搭載了完整的聲學前端陣列分離技術，能夠解決噪聲、回聲和混響對用户交互體驗的影響。經專業實驗室測試，紫光展鋭自研的聲學前端系統使得噪聲場景下喚醒率提升平均在25%左右，特別是低信噪比場景下，喚醒率提升明顯。在回聲場景下，喚醒率平均提升90%左右，達到了業界先進水平。

雙級喚醒技術

語音喚醒作為語音交互的門户，需要24小時不間斷運行（always on），需要保證高喚醒率、低誤喚醒率，同時要求具有較低的計算和內存開銷，以滿足低功耗、低成本需求。為實現高性能、低功耗，展鋭採用兩級喚醒策略：

第一級喚醒模型為超輕量級，參數量僅為50k左右，部署在協處理器。當開啓語音喚醒功能，一級喚醒處於always on狀態，實時監測音頻流中是否包含喚醒詞。這個階段只需要非常低的計算資源，因此在長時間運行的過程中能夠有效地減少功耗，同時也能保證一個較高的召回率水平。

第二級模型建模粒度更細，計算量也更大，部署在主處理器，只有在一級喚醒網絡檢測成功後才會觸發。該級喚醒能夠壓制從一級喚醒過來的幾乎所有虛警，只有該級喚醒詞識別成功後才會觸發後續的語音響應。兩級喚醒策略可以合理地使用SoC資源，在資源消耗和喚醒性能之間達到一個較好的平衡。

端側命令詞識別技術

喚醒只是語音交互的第一步，緊隨而至的控制指令識別才是交互需求的目的。語音識別控制作為語音交互的核心訴求，需要滿足低延遲、高準確率等，否則易降低用户使用語音助手的意願。

紫光展鋭M6780支持電視常用熱詞識別，即使在無網絡的情況下，也可以實現對設備基本操作的控制。命令詞識別過程中通常面臨集內互為相近詞的誤識問題，例如“上一頻道”和“下一頻道”，這對於準確率的優化提升非常不利，而該問題對用户體驗影響非常關鍵。因此紫光展鋭在模型的區分性訓練和解碼優化策略上都針對性地提出了多種創新方案，在保證識別率的同時，集內相近詞誤識降低了48%。

同時，紫光展鋭設計了“一語即達”one-shot方案（喚醒詞和命令詞一起説，不需要等待中間喚醒反饋），實現了更自然的人機交互方式。為了更貼合用户實際使用電視的習慣，我們也增加了設備“延時聆聽”功能，用户僅需一次喚醒，在一定時間內實現多次交互控制的需求。

噪聲場景實驗室喚醒性能對比圖

回聲場景實驗室喚醒性能對比圖

紫光展鋭M6780智能語音方案，在聽音室客觀條件下安靜場景喚醒率98%、帶噪場景綜合喚醒率90%以上，虛警控制在1次/24h以下。命令詞識別也實現了安靜場景96%、帶噪場景90%的識別率的高性能。在於不同競品的對比測試中，M6780方案綜合喚醒率排名位於前列，達到業界領先水平。M6780智能語音系統憑藉優異的前後端音頻算法以及軟硬件實現，讓語音交互“更智能”。

作為世界領先的平台型芯片設計企業，紫光展鋭堅持以技術創新為核心，全力提升產品、技術能力，強化公司核心競爭力，推動公司跨越式發展，為產業和社會創造價值，用科技之光照亮幸福生活。