《AI對話系統分級定義》發佈：對話系統邁入規範化軌道

作者：郑湘琪

2022-07-04

*【環球網科技報道記者鄭湘琪】*2013年，科幻電影《她》上映時，其中真人與AI虛擬助手暢聊的情節在現實中還不常見。近十年間，隨着Siri、小冰、小愛等AI語音助手加速滲透到人們的生活中，電影中的橋段已在各類場景中真實上演。

艾瑞諮詢發佈的數據顯示，2021年，中國對話式AI的市場規模達45億元，帶動126億元的相關產業規模。預計2026年，對話式AI市場規模有望達到108億元，5年 CAGR為25.9%，並帶動產業規模超385億元。

目前對話式AI賽道參與者雲集，但由於行業缺乏統一的評價標準，AI對話系統在能力水平評估方面遇到難題，這也對其應用場景的拓展形成掣肘。為破解這一難題，清華大學計算機教授、智能技術與系統實驗室副主任黃民烈聯合學界和業界科研機構制定了全球首個《AI對話系統分級定義》（以下簡稱《分級定義》）。在發佈現場，記者與黃民烈等專家進行了交流。

對話系統的衡量有據可依

“近年來，隨着深度學習技術的不斷發展，AI對話系統已經從基於規則的第一代和以傳統機器學習為核心的第二代，發展到以大數據和大模型為顯著特徵的第三代，對話能力產生了革命性變化，在開放話題上展現了驚人的對話能力，對進一步推動人工智能產業發展、實現智能化具有巨大意義和價值。”黃民烈表示。

然而，業界尚未構建統一的AI對話系統評價標準。黃民烈坦言，“AI對話系統標準缺失，造成其在應用中呈現出水平參差不齊、評價體系不一的現狀，導致了業界因認知不統一而對人工智能交互水平出現誤解，也引起了社會上關於意識、倫理、道德等方面的廣泛討論。”

基於此，黃民烈聯合十餘家科研機構、二十多位知名學者共同制定了《分級定義》。黃民烈表示，“考慮到AI對話系統任務繁多、評價維度多樣、技術路線豐富，撰寫小組在制定《分級定義》時僅關注完全由機器主導的對話系統，人機混合的對話系統不在考慮範圍內。”

同時，黃民烈介紹，為了在實際應用中發揮價值，《分級定義》的制定是從用户可感知，以及可觀察、可測量、可度量的角度出發，不考慮系統的具體技術實現方式，也不區分助理類任務、閒聊、知識對話等，均以“場景”進行表述。

在上述原則之下，《分級定義》從自動對話能力、對話質量高低、單一/多個場景、跨場景的上下文依賴和自然切換能力、擬人化程度、主動和持續學習能力、多模態感知與表達能力等角度出發，將AI對話系統劃分為從L0~L5的六個等級，等級越高，AI對話系統水平越高。

以L2為例，根據《分級定義》，L2級的對話系統能同時完成多個場景的較高質量對話，具有處理跨場景的上下文依賴和自然切換能力，無法完成新場景較高質量的對話。而L3級的對話系統則是在L2的基礎上，能針對大量場景開展高質量對話，在新場景上具有較高質量對話能力。

黃民烈透露，當前AI對話系統水平最高已發展至L2~L3之間，常見的如“小愛同學”等AI智能助理就處於這一發展階段。

對此，小米集團技術委員會主席、AI實驗室主任王斌表示，“目前小愛同學在單一場景的高質量對話方面做得比較好，也有一定的跨場景對話能力。我們將繼續加強小愛跨場景對話的切換能力，並且讓小愛通過小樣本學習具備快速適應新場景的對話能力。未來小愛很有可能達到L3-L4之間，L5則是我們的終極目標。”

對話系統離最高級還有多遠？

在業內人士看來，通過將AI對話系統的能力水平量化，《分級定義》可以促進AI對話系統的進一步研究，同時為工業界應用提供參考。具體而言，AI對話系統在虛擬個人助理、智能家居、智能汽車（車載語音）、情感陪護和心理健康等領域的應用都將有據可依，下一代AI對話系統的研發與應用也將按下“快進鍵”。

當前，在元宇宙的浪潮下，數字人幾乎成為AI第一熱門賽道，在諸多應用場景大放光彩。IDC預計，到2026年中國AI數字人市場規模將達到102.4億元。值得關注的是，隨着相關技術不斷更新迭代，情感交流成為數字人的一大發展趨勢。

以小冰為例，自誕生之初，小冰就強調人工智能情商在交互中的基礎價值，並在與用户的海量交互中形成獨特優勢。比如在智能座艙方面，基於小冰人工智能技術，車載AI與車主的交互自然而富有情感，已從原本功能性的語音助手升級為充滿人性關懷的出行夥伴。在遊戲領域，今年5月末，小冰宣佈成立ICEGamer遊戲工作室，推動NPC向有情感的人工智能交互主體方向發展。

據黃民烈介紹，AI對話系統最高級別L5的應用正是複雜情感任務，但真正達到L5還需要突破很多關鍵技術，比如記憶、聯想、推理、自學習能力等。為更好適配元宇宙場景，AI對話系統在表情識別、語音理解、情緒感知方面的表現，以及動作、語音、表情的細粒度都有很大想象空間。

從這一角度來看，《分級定義》的發佈也將促進AI對話系統在情感任務中體現更高水平，從而促進人工智能未來在情感陪伴、心理健康、虛擬人、元宇宙等方面的應用，並大幅釋放人力和物力成本，促進前沿科技走進大眾日常生活。

黃民烈強調，此次《分級定義》的發佈，是AI對話系統走向規範化、系統化發展的第一步。接下來，他將聯合該領域相關研究機構及研究者開展白皮書的編纂，聚焦AI對話系統的發展歷程，詳細闡釋《分級定義》的制定目的和標準。

“同時，我們還希望統一各方力量，推動一個類似亞馬遜大獎賽的機制，提供統一的開發環境、數據集和測試框架，將不同的AI對話系統進行比較。通過這樣的比賽，我們可以進一步深化理論研究，同時促進AI對話系統在工業場景落地，從而在實踐應用層面取得新進展。”黃民烈説。

注：參與本次《分級定義》的研究機構和研究者包括（以姓氏拼音排序）：科大訊飛AI研究院副院長陳志剛，京東集團副總裁、IEEE Fellow何曉冬，清華大學長聘副教授黃民烈，阿里達摩院總監、資深算法專家李永彬，華為諾亞方舟語音語義首席科學家、ACL Fellow劉羣，華為諾亞方舟實驗室高級研究員糜飛，百度主任架構師牛正雨，騰訊AI Lab總監史樹明，中國人民大學副教授宋睿華，阿里達摩院總監孫健，小米技術委員會主席、AI實驗室主任王斌，百度技術委員會主席吳華，美團自然語言處理中心總監武威，中國人民大學副教授嚴睿，中國科學院深圳先進技術研究院副研究員楊敏，OPPO高級技術總監楊振宇，哥倫比亞大學助理教授俞舟，北京師範大學新聞傳播學院院長張洪忠，哈爾濱工業大學副教授張偉男，北京聆心智能總監鄭銀河，三星電子中國研究院語言技術部技術總監朱璇。