數字人小燦:始於火山語音,發於B端百業_風聞
大数据在线-11-03 18:03
火爆的數字人市場又有新消息來襲:火山語音的數字人小燦來了!
今年以來,在生成式AI浪潮的助推下,大量企業爭相佈局數字人賽道。市場之所以如此火熱,是因為AI數字人已被視為人工智能時代智能交互的入口級產品,對於未來AI的廣泛應用具有重要意義。
與虛擬現實時代數字人“高處不勝寒”,市場接受度較低相比;如今,金融、汽車、文旅、政務、大型企業等B端行業用户均在迅速接受和嘗試AI數字人,並密切關注着市場與技術的動態變化。
不過,AI數字人在商業化落地依然面臨着諸多挑戰,如何真正推動數字人走向普惠是當下市場的一道難題。為此,火山語音推出數字人小燦,為AI數字人在B端市場走出一條重要的落地路徑,助推AI數字人走進廣大B端業務場景。
數字人賽道火熱,落地挑戰不容忽視
IDC《中國 AI 數字人市場現狀與機會分析》報告預測,到2026年,中國AI數字人市場規模將達到102.4億元人民幣。
毫無疑問,AI數字人市場前景非常廣闊。但從虛擬現實時期開始,數字人雖然借勢起跑,卻始終面臨着大規模商用場景缺乏、市場接受度低、技術成熟度不高、成本高居不下等挑戰,以至於在B端市場舉足不前。
以市場定位為例,超寫實的3D虛擬數字人貼合真人形象,也更加符合B端市場各種場景的定位,卻也受制於AI算法、文本轉語音技術、算力等技術因素的綜合影響,數字人產品質量良莠不齊,語音、表情、互動等生硬,在B端業務場景中定位也不夠不清晰,華而不實逐漸淪為噱頭。
與此同時,數字人又面臨着高昂生產和運營成本、較長生產週期等問題,很多曾火爆一時的3D數字人均受困於成本問題,宛如流星般劃過。業內人士介紹,一個3D AI數字人的年運營成本就高達數百萬,也讓諸多B端企業望而卻步,市場接受度始終起不來。
事實上,數字人當前遇到的困境並不稀奇。究其原因,在產業發展的早期階段,一項技術或產品要實現從小眾到大眾、從嚐鮮者到主流羣體的廣泛應用,解決不了技術關和成本關兩大難題,終究無法實現。
業界普遍認為,在政策導向、市場需求、資本支出和技術成熟度等因素的合理推動下,AI數字人在B端市場正處於爆發的前夕。當前,市場中尤其需要AI數字人的高質量“爆款”,率先實現質量、成本與效率的兼顧,攻克技術關和成本關,牽引AI數字人全面融入B端業務場景。
相比之下,火山語音在數字人賽道屬於先思而後行,其數字人小燦的定位非常清晰,即成為“提升工作效率+情緒價值”的副駕駛;同時作為首個超寫實數字人,數字人小燦具備“善聽”、“會説”、“能想”等特徵,加上一站式擬人化服務,為數字人在B端市場帶來新的啓發。
超寫實數字人,小燦顏才兼備
數字人小燦作為火山語音首位數字員工,火山語音介紹,未來或作為AI產品與技術的先導官服務內外。
作為超寫實數字人,數字人小燦堪稱顏值擔當,不僅形象靚麗,而且氣質不錯。除了顏值之外,數字人小燦具備邏輯學家的人格類型,專業可靠、高理性邏輯,且才華橫溢,對AI應用充滿了天馬行空的幻想。
數字人小燦“提升工作效率+情緒價值”副駕駛的產品定位,以及顏才具備的特徵,都與B端業務場景的需求十分契合。眾所周知,在B端業務場景中,業務邏輯較為複雜,通常具有一定的專業性,如果AI數字人語音、表情、互動生硬,不懂傾聽、不會表達和不具備邏輯性,無法提升業務場景效率,就很難勝任業務場景的交互重任。
以金融業為例,IDC《銀行數字科技五大趨勢》報告認為,到2025年,超過80%的銀行都將部署數字人,承擔90%的客服和理財諮詢服務。當前各種類型的金融機構均在試水AI數字人,像客服、理財諮詢這類B端金融場景,AI數字人需要“看懂文字、聽懂語言、做懂業務”,不僅需要在場景中實現與客户的高效率交互,還需要具有共情能力,讓服務有温度。
數字人小燦顏才兼備的背後,自然離不開火山語音在AI相關技術的深厚底藴。
據悉在形象技術方面,火山語音聯合字節遊戲-朝夕光年江南團隊,聯合打造3D超寫實形象,數字人小燦是藝術+AI技術結合體。數字人小燦具備開心、驚訝、憤怒等豐富的情感演繹能力,語音交互時表情自然流暢,這些離不開火山語音的3D超寫實數字人整套形象設計、資產製作、高成本影視級cg管線視頻內容製作能力,以及自研高逼真AI口型及動作驅動技術。例如在AI驅動動作層面,團隊基於創新的Motion Blening技術,在動作切換時可生成過度幀,使得數字人在切換各類動作時不僅可以做到毫秒級切換,同時平滑效果自然無感知。
同時數字人小燦還是個“語言天才”,會説英語、日語、粵語、東北話等十多種外語及方言,高保真還原真人音色、説話風格和聲學環境特點,在市場中遙遙領先,這同樣離不開火山語音在語音領域的技術底藴。例如“一條音頻秒級別音色復刻”技術(zero shot TTS),僅需要輸入5秒鐘到1分鐘的音頻,可秒級別極速復刻高保真還原真人音色、説話風格以及聲學環境等特點;此外在核心技術架構全自研的基礎上,各種指標(音質、相似度等)均居於學術界前沿,韻律模塊基於自迴歸GPT類大模型研發,支持code-switch,即無論prompt為中文/英文,支持輸出中文、英文及混合內容。
事實上,除了深厚的技術底藴外,火山語音此次還非常注重以數字人為抓手,推動AI技術在B端的實踐與落地。
深入行業場景,AI讓工作生活更輕鬆
不可否認,當前AI數字人市場的火爆,也造成了一定的亂象,市場中也存在着大量良莠不齊的產品與方案。
業界普遍認為,AI數字人是推動AI技術在工作生活中落地的一個好抓手,能夠真正帶來B端行業交互效率和體驗的提升,讓人們的生活與工作更加輕鬆自如。但AI數字人在B端的普惠落地,還需要深入行業場景,找到產品與場景中的結合點,從而讓數字人產品的價值得以呈現;並且需要具備規模化複製能力,降低AI數字人邁向B端行業用户的門檻。
通過數字人小燦,火山語音在AI數字人市場目標很明確,就是通過持續多版數字人產品的迭代,實現AI數字人質量、效率和成本並重,並讓AI數字人深入行業場景,進而推動AI數字人在B端走向普惠。
在行業場景價值呈現方面,火山語音的數字人產品包括“播報型數字人”和“交互型數字人”兩種類型,專注播報、交互、直播三大核心場景,可以面向金融、大消費、泛互等行業提供涵蓋“金融客服”、“智慧導覽”、“智能助理”、“虛擬直播”等場景細分解決方案,為B端用户帶來交互體驗的全方位升級。
為進一步降低AI數字人的門檻,火山語音AI數字人可以實現快速復刻數字分身,僅需5-10分鐘視頻,就可1:1還原真人,再結合聲音復刻即可快速實現形象與聲音的近乎完美還原,加速AI數字人在內容生產、視頻直播、車載環境等諸多場景中的落地。
更加重要的是,火山語音一直在技術層面持續迭代和優化數字人產品。例如,近年來,火山語音深度參與到“實時高逼真孿生數字人關鍵技術研發與應用示範”等多個國家重點項目建設,通過產學研用聯動,推動AI數字人相關技術的應用。
隨着數字人小燦的問世,火山語音已經在數字人領域已經取得階段性成果,為市場帶來了質量、成本和效率並重的AI數字人一體化服務。面向未來,隨着AI數字人市場不斷發展,火山語音的AI數字人產品與服務有望在B端行業中遍地開花。