語音交互中的“等待體驗”研究

2017-12-20

回顧人機交互發展史，人類先後經歷了基於命令行的CLI時代，基於鼠標鍵盤的GUI時代，基於觸摸的初級NUI時代。後面每一個階段比前一個階段更自然，學習成本更低，綜合效率更高。

進入AI時代，人工智能給機器帶來三種能力：感知能力、認知能力、自然語言輸出能力。感知能力使機器能聽得懂人類語言，認知能力使機器能思考如何回答人類問題，自然語言輸出能力使機器可以像人類一樣表達——三種能力的綜合運用將人機交互帶入語音交互階段。語音交互是最自然的人機交互方式，它極大地降低了人們與機器交互時的學習成本，將人機交互綜合效率帶上新的台階，已成為非常重要的人機交互方式。

一、“等待體驗”——語音交互體驗的三分之一

生活中人與人的對話場景，對話是由“向對方説出一句話”、“等待對方回覆”、“對方給出回覆”三個階段不斷循環構成。其中“等待對方回覆”是對話體驗的“三分之一”，會對回覆的滿意度造成直接影響。在等待回覆階段，如果對方處於認真思考的狀態，會讓我們覺得被重視；然而，如果在等待過程中對方的注意力不在對話本身，即便對方給出的回覆再好，我們也會心存疑慮。

對應到人機語音交互中的三個部分——“輸入體驗”、“等待體驗”、“回覆體驗”，“等待體驗”同樣處於整個體驗循環鏈的中間環節，在語音交互體驗中起到了承上啓下的重要作用。但是，關於語音交互中的“等待體驗”在行業尚未被系統的研究，依舊處於模糊狀態。

1.響應時間一定是越短越好嗎？

數字性能管理平台Dynatrace對用户瀏覽網頁的行為進行了研究，發現當網頁加載速度提升0.5秒，可促進用户在網站的行為轉化核心數據提升10%。因此，在網頁設計和App設計中，儘量縮短等待時間是產品設計的不懈追求。

不同於基於視覺的交互，語音交互天然附帶情感屬性。然而，情感的體驗是複雜的，它不只受效率這個單一變量的控制。大多數情況下，在生活中人與人對話時，一個過快的回答會給用户帶來輕浮感和搶話感，而一個過慢的回答會給用户帶來遲緩感和愚鈍感。

2.等待體驗受哪些變量的影響？

在視覺設計領域，當設計頁面的loading態時，為降低用户的跳出率，設計師時常會通過給出進度條，或採用趣味性的情感化設計來消除用户的不安情緒。

但是在語音交互領域，語音的承載體是無形的，或不確定形態的，我們甚至沒有承載loading態的界面。在這種情況下等待體驗又受哪些變量影響呢？影響的程度怎樣呢？

綜上，可以説在語音交互領域，等待體驗雖然重要，但目前仍是“一團迷霧”。鑑於此，我們以目前語音交互的主要載體——智能音箱產品為例，對AI產品中的等待體驗問題進行專題研究。

二、智能音箱的等待體驗研究

目前的智能音箱，主要採用先語音喚醒後輸入指令的語音交互流程。鑑於此，我們可以將智能音箱的使用過程分為兩個主要階段：

1）喚醒階段：用户通過指定的喚醒詞將音箱從等待態轉換為就緒態，音箱被喚醒後才可以接收用户的語音指令。

2）用户請求及反饋階段：用户給出語音指令內容以及智能音箱反饋結果滿足用户的需求。

實驗二：用户請求及反饋階段的響應時間對等待體驗的影響；

實驗三：視覺、聲音等不同反饋方式對等待體驗的影響。

下面我們對每個實驗的結論進行逐一詳述：

實驗一：喚醒階段的響應時間對等待體驗的影響

為了全面考察喚醒階段各種因素對等待體驗的影響，在實驗中，我們為用户提供了不同喚醒響應時間和不同喚醒反饋方式的智能音箱。用户完成實驗任務後，需要對音箱的喚醒響應速度進行評價（5點量表：太快了，接受不了；有點快，能夠接受；剛剛好；有點慢，能夠接受；太慢了，接受不了）。

實驗一的結果表明最佳的喚醒響應時間與喚醒反饋方式有關，不同喚醒反饋方式下，最佳響應時間不同：

1）當喚醒反饋為"燈光"反饋時，喚醒響應速度越快越好，在200ms時，用户響應舒適度最高（對響應時間評價為剛剛好的用户比例），73%的用户對速度滿意。

2）當喚醒反饋為"燈光+音效"時，喚醒響應速度的舒適時間為300ms左右，76%的用户對速度滿意。

3）當喚醒反饋為"燈光+人聲"時，喚醒響應速度的舒適時間為500ms左右，74%的用户對速度滿意。（注意：本次實驗設置了市面上主流的三種喚醒反饋方式：燈光、燈光+音效、燈光+人聲，以給不同反饋情況的響應時間感受作參考，但對最優反饋方式，除了響應時間還受其他因素影響，將另着篇章探討。）

由於用户請求及反饋階段的響應在技術實現和用户預期上，與喚醒階段的響應存在差異，因此我們通過第二個實驗對用户請求及反饋階段的最佳響應時間範圍進行研究。在實驗中，我們為用户提供了不同響應時間設置的智能音箱。

1）1250ms以內是用户認為響應速度較優的區間，其中650ms為最佳體驗值。在450ms時，少量用户覺得響應速度太快了，用户會感覺到緊迫感和壓力，難以接受。

2）在1450ms時，有53%的用户開始感覺響應有延時，但仍能夠接受。

3）從2150ms開始，有20%的用户認為音箱響應太慢，不能夠接受。我們認為20%的用户不滿意，已經不足以被稱為一個優秀的產品。

由於目前市場上的智能音箱在請求反饋階段的響應時間普遍在1.5秒以上，並沒有達到實驗二研究的理想響應區間。因此，我們通過實驗三進一步研究反饋方式設計對用户響應速度感知的影響，我們為用户提供了五組具有不同反饋方式設計的方案。

2）1350ms到2150ms，方案D、E感知舒適的用户比例較高，加入人聲/音效後，如方案D的語音應答“好的”，有助於緩解用户延遲感受，提升速度感知體驗。

3）在3150ms及以上的響應時間，響應方式設計對緩解延時的作用已經不明顯，應該儘量避免此類情況發生。

此外，實驗三還發現響應速度預期與用户性別、任務類型有關。與男性相比，女性用户對響應時間容忍度更低，她們最長在音箱無反饋時可以容忍的平均響應時間長度低於男性，即她們希望在更短的時間內得到音箱的響應反饋。

與音樂類、問答類等任務相比，用户對控制類任務的響應時間容忍度更低，用户希望在控制類任務中有更加及時的響應反饋。

本文針對語音交互中的等待體驗進行了討論，並以智能音箱為例，重點對喚醒階段和請求反饋階段的響應時間和反饋方式進行了人類工效學實驗研究。由於實驗設定的條件和樣本數量等限制因素，實驗研究結論可能不能代表所有智能音箱用户在家居環境的全部感受，但希望通過我們的研究和探索，可以指導人工智能語音對話產品響應時間和反饋方式的設計，幫助打造自然和極致的語音對話體驗。