國產3D虛擬人版《Her》「殺向」迪拜_風聞
量子位-量子位官方账号-昨天 20:59
衡宇 發自 Gitex
量子位 | 公眾號 QbitAI
好久沒出門,AI產品的世界已經快進到這個樣子了?
在全球三大IT展之一的GITEX GLOBAL上,量子位在某個展台,先後體驗了和Chatbot聊天、用AI創建屬於自己的3D數字人形象、和3D形象即時語言、肢體互動。
也就是説,《Her》有了3D虛擬人版。

旁邊的展商過來神神秘秘説了句:
看上去是三個功能體驗,但以後,這三個功能在產品裏是要合併到一起的。
量子位還沒反應過來,展商又補了一句:
創立這些數字形象,是希望以後用户下線後,ta們的數字形象還能接着在社區裏幫ta們聊天,減少自己聊聊到不合適的好友浪費時間的情況。
啊……這……我……行吧,有了AI,和人聊天都有預製版了。

如果我説這家展商是個中國公司,也許不少朋友立馬能猜出來。
沒錯,它就是Soul。
量子位在現場拉着Soul的工作人員大聊特聊了一番,其中不僅僅有Soul AI某子板塊負責人和他的組員,還被量子位捉到了這家公司的CTO陶明。

**△**Soul CTO陶明
這麼好的機會,那還等什麼?體驗完展台互動,直接再安排庫庫一頓聊。
Gitex展會,Soul它Show了啥?
整個Soul的展位上,主要互動區擺着三塊體驗屏幕。
面向展位從左至右,分別可以體驗:
**左邊屏幕:**與自己創建的3D數字人流暢互動
**中間屏幕:**創建能語音文本對話、多語言交流的逼真3D數字人形象
**右邊屏幕:**和聊天機器人語音或文本聊天

量子位在這個展台前站了很久,發現在此駐足的人,更喜歡體驗左邊和中間的兩個功能。
而且大家去Soul展台體驗,彷彿有一個無形的規則,那就是選擇先在中間的屏幕前探索Soul的即時3D建模功能。
掰開了講,那就是現場拍一張體驗者的照片,在幾秒鐘的時間內,通過分析90多個面部形狀參數和6個屬性參數,快速重建虛擬的面部特徵,完成虛擬3D形象的生成。
然後,體驗者就可以與3D形象對話了。

但光有語言的交流還不夠——
到這個時候,大家就會(不自覺地)挪到左邊那塊屏幕前面。
屏幕上也是自己創造出的虛擬3D形象。基於即時的人體動作識別、數字還原以及多模態對話交互能力,現場可以實現3D虛擬人與真人的沉浸式互動。
多沉浸呢?由於配備了即時運動跟蹤,你可以説一些話or擺動身體、四肢,來與屏幕那頭的ta低延遲交互。

值得多提一嘴,得益於Soul自家多模態AI模型在背後的支持,這兩個屏幕承載的AI體驗,允許語音、文本和物理交互同時進行。
AI社交,場景、模型的認知與感知都很重要
儘管這家公司已經推出了Soul海外版,但參加本次Gitex,其實是Soul在海外展會上的第一次亮相,
“從體驗層面來説,海外產品希望給用户端創造更好的粘性。”Soul CTO陶明解釋道,“主要還是以Soul這個主平台,來傳遞我們關於AIGC+社交的概念。”
陶明表示,以他所見,AI+社交這條賽道,無論國內外市場,都要有兩個必要條件。
一,是要持續地繼續往前發展。
二,是探索的場景和業務,其實現在還不是很明朗。
而Soul擁有的,是「人機對話」這個基礎點(或者稱為原子能力) 。
在Soul的理念中,因為用户和業務之間其實存在鴻溝,所以要做的事不是把原子能力直接推向用户,而是要建一個AI being和Human being共存的社區。
單點的聊天會在這個社區發生,但是社區無法靠單點聊天維持,“大模型六小強做的一些AI聊天產品,都有支持單點聊天的能力,但持續的聊天難以為繼,這就是因為任何AI不在場景裏,人機單點聊天其實門檻很高。”
Soul更希望打造不同的場景(比如語聊房),利用一些規則和策略,讓人和AI在一起社交,過程難辨真人還是AI。
這裏的社交不會侷限在聊天這一件事情上,AI NPC和真人用户共同做同一件事,也很容易構建彼此之間的鏈接。
如陶明所説,Soul的AI+社交理念,最基礎的一點是“必須要保證人和AI在同一時空下”。類似於現實世界和現實世界的仿真,人和人的仿真對AI和人建立聯繫非常重要。

“如果只是單純聊天這件事,不太成立……一定要要發現場景,才能夠説能讓用户有更好的體驗。”
這一方面,Soul是怎麼基於理念來設計產品的呢?
舉幾個例子。
第一個
,在人和人、人和AI的交互過程當中去打造更多的場景**。**
比如用户和AI聊天,你發一張照片讓它知道你感冒了,然後就能圍繞感冒這個話題繼續對話,而不是非要硬找話題。
第二個
,和AI語音通話時,它聽到你周圍的環境音,判斷你在咖啡館或者音樂派對上,話題也能自然而然地展開了。
這就不難理解為什麼Soul在大模型方面堅持GPT-4o的方向,因為團隊認為一個AI,應當具有統一的感知能力和認知能力。
純有認知能力,並不能給用户帶來價值,因為用户是希望被感知到的。
而o1的方向同樣重要,因為o1加強了大模型的認知能力,其實就能給用户帶來很好的體驗。
社交平台做AI《Her》會有什麼不一樣嗎?
在社交平台這條賽道上,Soul是絕對的頭部梯隊玩家。很多人不知道的是,它也是國內最早將AI融入社交互動的平台之一。
App上線之初,Soul就開始搭建一些AI能力的基礎建設,兩個基於AI的引擎。
一個是靈犀引擎,基於Soul用户站內全場景畫像的智能推薦系統,通過AI技術,持續挖掘有效特徵,通過算法方式提高用户在內容方向的消費和互動體驗,提高用户建立關係的效率和質量。
另一個是NAWA引擎,為集AI、渲染與圖像處理於一體的集成化SDK,提供AR視頻技術、基於多模態感知與驅動的交互技術和基於重建的虛擬形象技術,能夠輸出包含Avatar表情驅動、美顏美妝、卡通化等數十種圖像處理與2D/3D渲染能力的引擎。用它創建的個性化3D頭像表現力更強,還能動起來。
2020年(ChatGPT掀起大浪之前),Soul就開始啓動對AIGC相關的算法研發工作,並在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。
Soul在多模態領域發力很早,2023年Soul就推出自研垂類語言大模型Soul X,垂直應用於平台上多元社交互動場景。
例如智能對話機器人“AI苟蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什麼的。

**△**在Soul上開啓AI輔助聊天
當時的Soul是這麼説的:
AIGC帶給社交的不僅僅是交互效率、交互質量和交互體驗的提升,同時以智能體和虛擬人為代表的交互對象也在發生變革,這意味着社交出現代際的迭代,社交的範圍也會被重新定義,社交產品的形態也在發生改變。
今年,Soul持續開搞“AIGC+社交”。
目標很明確:
在有技術能力基礎、有用户實際需求、認準“模應一體”方向的情況下,推動AIGC和社交場景的深度融合。
Soul推出了最新的端到端多模態AI模型,該模型集成了文本、語音和視覺交互,具備超低延遲、聲音擬真、情緒感知等特點。
端到端尤其顯著地降低了聊天的延遲。
陶明披露,Soul現在的語音對話延遲不到200毫秒,“這不再像以前那樣是一個連續的過程,我們首先生成文本和圖像,然後將它們轉換為語音。現在,我們將語音和 NLP 統一到一個集成流程中,從而消除了滯後問題。”
而同時期的“數字孿生”功能,則允許用户根據過去的交互或自定義設置,創建自己的個性化虛擬版本。
現在,剛剛在Gitex上秀了一把的Soul,又快宣佈自己的新進展了。
陶明表示,預計到了11月,平台將推出全雙工視頻通話能力, Soul的AI NPC就能“看得見了”。
也就是説,下個月,用户們就能在Soul裏實時和AI的視頻聊天了,對方還是有形象、有表情、有記憶,會對前幾天不經意咳嗽過一句的你,説感冒好了沒有的那種。

這就很《Her》!
之前國內外很多團隊都發過各種版本的《Her》,但這次的期待有所不同——
不是在期待語音是否最逼真、延遲是否最低,口型是否對得最好,而是期待,加入AI元素的社交平台公司,熟諳搞社交那一套,在這個人機交互的產品/功能上,會不會有特別的設計。
不過時間還沒到,只有先期待一波咯~
關於Gitex
Soul參加的這個海外展會,GITEX GLOBAL全球三大IT展之一,本週五在阿聯酋迪拜落下帷幕。
這是第44屆GITEX GLOBAL,不出意外創下新高,規模迄今為止最大:
吸引了超過6500家參展商、1800家初創企業、1200名投資者以及來自180多個國家的政府參與。

連迪拜王室也組團蒞臨現場視察……
這陣仗,讓本來就肩膀挨着肩膀的場館現場更是水泄不通了。

儘管如此,量子位還是拿出go shopping的激情,在二十幾個展館裏一個挨一個地認真逛。
終於,不僅打卡了很多中國企業出海來參展的展台,比如阿里、華為、騰訊、塗鴉智能、普渡機器人等等;
也看到了全球範圍內很多AI公司的身影出現在現場,比如英國AI獨角獸Builder.ai(對沒錯,背後微軟支持,但創始人一直官司不斷的那家)、中國的智譜華章等。
當然,如果對電子方面感興趣的朋友們,一定會逛得更快樂,現場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有,還有很多沒太看明白設計(但中東土豪們肯定喜歡)的飛行器。

不簡單啊不簡單。