“數字人”與“數智人”,不止一字之差_風聞
陆玖商业评论-真相只能揭露,无法接近。2021-11-09 09:37
今年的騰訊數字生態大會上,騰訊雲小微發佈了5款不同形象的數智人,併發布了騰訊語音智能等行業領先技術。以人工智能、雲計算、大數據等技術為底座和基石,才能將全真互聯網的產業部分構築牢靠,才能成就數智人的真正應用和落地。

“數字人”和“數智人”,到底有什麼差別?
手機裏的智能語音助手,家裏的智能音箱,企業的智能語音客服,都是“數字人”的一員,它們能和人進行語音交互,執行指令或者按既定程序完成對話,但從語音和互動上都相對生硬。
“數智人”則整合了語音交互、自然語言理解、圖像識別等AI能力,外觀形象更鮮活,與人之間的對話更自然,將人機交互從單純的對話工具轉變為真正的溝通交流。
與數字人相比,更加智能、人性化的數智人,顯然更符合當下大火的元宇宙中虛擬形象的設定,更能滿足馬化騰去年對於全真互聯網“推動信息接觸、人機交互的模式發生更豐富的變化,致力於幫助用户實現更真實的體驗”的展望。
無論全真互聯網還是元宇宙,“上不了船的人將逐漸落伍”。從美國各大互聯網巨頭來看,大家都意識到了同樣的問題,Facebook升級為Meta,谷歌專注於AI,最終目的都是抓住“全真”時代的船票。
全真互聯網,或者元宇宙,建立在IoT、AI、雲計算等多種先進技術的基礎上,並且需要這些技術的整合應用。直到近年來,才有多點結合的技術落地。比如Google在2018年推出語音助手Google Assistant,可以冒充真人打電話、訂餐館等,真假難辨,讓語音助手向“自然化”方向發展,被網友戲稱“人工智障終於變成人工智能”。
看似簡單的一款產品,背後是Google各方面強大的技術積累。不過在這方面,中國企業也不甘落後,比如騰訊旗下的數智人產品,騰訊雲小微,就是類似於“數字員工”,能極大解放生產力。此前,數智人已經在金融、文旅、傳媒等多個領域,初步通過了在真實落地場景中的應用檢驗。騰訊還推出了能在複雜場景中抓住主要語音的騰訊語音智能,更符合日常需求。
可以説騰訊的數智人是公眾能感知到的,騰訊在全真互聯網發展中的重要一步。
語音交互體驗升級
語音交互技術在日常生活中的應用已經不少,手機上的語音助手,家裏的智能音箱,公司的智能客服,都是現在應用很廣的語音交互技術。但是在使用或體驗時人們也能感覺到,現在落地的主要設備其實都還不是真正的智能,基本都只是按設定好的關鍵詞執行指令,或者用設定好的語言完成下一步對話的推進,相對生硬。
2018年穀歌的Google I/O大會上,展示了最新搭Google Duplex技術的Google Assistant。這個能進行持續對話、更自然、能響應用户同時提出的多重問題、甚至帶有人類溝通語氣詞的語音助手,驚豔全場,不少媒體直呼Google Duplex是“極為逆天的人工智能黑科技”。
當時,別説中國企業,就是蘋果和微軟的語音助手Siri和Cortana,也只能進行單項、機械的對話。
AI語音交互為什麼重要?因為在現在互聯網的發展趨勢,全真互聯網,或者説元宇宙,都避免不了需要數字人的存在,而AI語音交互,則是讓數字人無限接近真人的重要技術之一。
馬化騰曾經説過,全真互聯網是下一波趨勢,“上不了船的人將逐漸落伍”。中國企業近幾年在AI研發方面下了大功夫,慢慢地趕上甚至在一些細節處超越了國外的領軍者。
以騰訊為例,今年騰訊的數字生態大會上,發佈了雲智能戰略架構,並宣佈騰訊雲小微數智人是實現其戰略的重要一環。
騰訊雲小微在現有的基礎上,整合了語音交互、自然語言理解、圖像識別等更多AI能力,將“數字人”升級為“數智人”,擁有了更強大的表現力、識別力和感知理解能力,與人之間的對話更自然,將人機交互從單純的對話工具轉變為真正的溝通交流。
具體而言,騰訊雲小微數智人擁有8種超細微面部情感表情以及數百種肢體動作,讓虛擬形象的表情和動作更接近於真人形象。騰訊在此次大會上,還一次性推出了3D超寫實、3D寫實、3D半寫實、2D真人、2D卡通五種數智人的風格,以滿足各類場景服務需求。在形象選擇方面,騰訊雲小微數智人可支持定製化需求,並且還能為客户進行海量IP形象授權。
不止在外在形象上下功夫,騰訊雲小微數智人可識別超34種語種、方言、翻譯超過11個語種,擁有超過46萬垂直行業場景熱詞庫,也就意味着能適應更多客户的需求。
大會之前,數智人已經與平安普惠、故宮、新華社等,在金融、文旅、傳媒等多個領域建立了合作,例如新華社推出的全球首個“AI合成主播”,到目前為止已經累計播報新聞超過1萬條,保證播報零誤差,可對日常和突發事件實時響應。
這些實踐的成功,讓騰訊雲小微數智人初步通過了在真實落地場景中的應用檢驗,讓我國的數智人相關技術和體驗,更接近世界領先水平。
雲小微的優勢
試想一些場景:你在看智能電視,想要換台,但是旁邊有打麻將的人剛好胡牌,大聲笑鬧,智能電視聽不全你的指令,你只能到處找遙控器,或者等他們安靜下來再換;或者你在開車,想用語音導航找目的地,副駕駛座位上的人卻在大聲打電話,語音導航導錯了地方。
人是社會性動物,現實生活中上述場景很常見,但因為技術問題,語音交互如何排除干擾的問題,一直沒能得到好的解決。
騰訊雲小微和AI Lab聯合發佈的騰訊語音智能,則針對這一常見問題提出瞭解決方案。這是一款能夠提升語音識別效果和效率的全鏈路AI+聲學技術解決方案。
騰訊語音智能通過語音分離工作模式,極大提升了在複雜場景下語音採集、降噪分離和增強的效果,在複雜環境中大幅度降低了語音收集的錯誤率。數據表示,使用騰訊最新技術的語音識別,錯誤率可降低超過50%,可以更好地進行轉寫、理解和回覆。
騰訊智能產品副總裁、騰訊教育副總裁李學朝接受媒體專訪時,還提到騰訊數智人的另外幾個優勢。
“雲小微、AI Lab和搜狗原來的AI數字人走到一起,所以我們現在打造的不僅從技術上,從產品上和場景上,應該是在業界看到的比較領先的。這裏面的話,最典型的像最近有一次信通院針對數智人交付的評定,我們是拿的優良級,是唯一的廠商,這是代表對我們形象,也是智能各方面的認可,這也是從技術到產品的維度的認可。”
首先是在實際應用場景方面。中國各大互聯網公司近幾年都在AI技術研發上投入不菲,也獲得了相應的回報,在中國AI行業中取得領先地位。但是,技術和應用之間,理論和實踐之間,尚有差別。
騰訊雲小微數智人就是最早一批落到實際應用場景的。有別於媒體上更多見的偏靜態數字人,騰訊雲小微數智人根據實際場景中的需求,訓練數智人底層的AI算法,實現了不同行業和具體場景下的差異化,讓用户可以跟數智人真正對話。
更早進入實際應用場景,意味着AI能接受更多來源於真實情景的訓練,能更快基於已有的語種、方言、熱詞庫,進行訓練,從而更快“進化”。
另外,騰訊語音智能可以支持多種應用場景和設備,擁有優秀的場景適配性和通用性,面向實際場景的定製優化更簡單、高效,為企業場景中的語音服務需求降低了運行和定製成本。
在媒體交流環節,李學朝還特別提到了與搜狗整合完成後,騰訊在2D真人方向獲得提升。他認為,搜狗原來數字人尤其是2D數字人做得不錯,搜狗的2D數字人在金融方向落地最早,而AI Lab主攻3D方向,搜狗和騰訊雲小微疊加,對騰訊來説,在技術產品和場景落地方面都是增強。
更大的想象空間
“數智人正在走進我們的生活,在企業中承擔崗位職責,為用户創造前所未有交互智能體驗同時,提升企業服務效率和品牌形象。”李學朝在大會上表示。
比如,現在語音客服轉人工客服的時候,中間還是會有聲音的變化,讓我們明確地感知到智能語音和人工服務的切換,而在數智人音視頻傳輸更及時的前提下,可以讓後面人工服務通過數智人表達,沿用數智人的聲音和語氣,讓用户感受到是無縫切換,提升用户溝通體驗,數智人客服可以7*24響應,成本僅為人工座席的約1/5,這一點在銀行客服等服務行業尤為重要。
還有,疫情期間很多活動不得不轉到線上,這時啓用數字人講解員,能最大限度減少現場人員數量,防止疫情傳播風險。中國(深圳)國際文化產業博覽交易會等活動中,已經做了虛擬講解員嘗試,像騰訊數智人這樣能表達多種情緒、有多種肢體語言,並且能和觀眾對話、回答問題的數智人,才能更好地讓用户在疫情期間突破空間、時間限制,享受如同到現場一般的互動性在線講解遊覽體驗。
人機交互模式從最早的文本客服,升級為語音客服,再到更“人性化”的交互系統,其商業化落地,在企業運行降本增效方面,起到重要作用。當我們被環球影城裏威震天與觀眾們互動逗樂的時候,其實,一個真相是,這些問答都是由演員即興表演完成的。我們可以想象,未來有一天,數智人經過訓練,也可以達到同樣的對話水平。
數智人的演進趨勢是確定的。李學朝認為,目前有四大演進趨勢,第一個是“聽得清”,這個問題騰訊智能語音已經提出瞭解決方案;第二個是如何處理多音字或重名,騰訊已經有了解決思路;第三個是讓數智人通過微表情、肢體語言等,變得更像真人;第四則是理解和表達情緒。
後面兩個問題,騰訊雲小微目前有8種微表情,足以使其比大多數數智人的表現更加細膩。不過,李學朝亦坦言,目前數智人對於交互中情感的“理解”,依然基於對文字內容的理解或者語義、語音情感的輸入,“各個板塊還是需要有這種深度的基礎探索,讓整體的數智人表現得更立體一點”。