國產3D虛擬人版《Her》「殺向」迪拜_風聞

量子位-量子位官方账号-昨天 20:59

2024-10-20

衡宇發自 Gitex

量子位 | 公眾號 QbitAI

好久沒出門，AI產品的世界已經快進到這個樣子了？

在全球三大IT展之一的GITEX GLOBAL上，量子位在某個展台，先後體驗了和Chatbot聊天、用AI創建屬於自己的3D數字人形象、和3D形象即時語言、肢體互動。

也就是説，《Her》有了3D虛擬人版。

旁邊的展商過來神神秘秘説了句：

看上去是三個功能體驗，但以後，這三個功能在產品裏是要合併到一起的。

量子位還沒反應過來，展商又補了一句：

創立這些數字形象，是希望以後用户下線後，ta們的數字形象還能接着在社區裏幫ta們聊天，減少自己聊聊到不合適的好友浪費時間的情況。

啊……這……我……行吧，有了AI，和人聊天都有預製版了。

如果我説這家展商是個中國公司，也許不少朋友立馬能猜出來。

沒錯，它就是Soul。

量子位在現場拉着Soul的工作人員大聊特聊了一番，其中不僅僅有Soul AI某子板塊負責人和他的組員，還被量子位捉到了這家公司的CTO陶明。

**△**Soul CTO陶明

這麼好的機會，那還等什麼？體驗完展台互動，直接再安排庫庫一頓聊。

Gitex展會，Soul它Show了啥？

整個Soul的展位上，主要互動區擺着三塊體驗屏幕。

面向展位從左至右，分別可以體驗：

**左邊屏幕：**與自己創建的3D數字人流暢互動

**中間屏幕：**創建能語音文本對話、多語言交流的逼真3D數字人形象

**右邊屏幕：**和聊天機器人語音或文本聊天

量子位在這個展台前站了很久，發現在此駐足的人，更喜歡體驗左邊和中間的兩個功能。

而且大家去Soul展台體驗，彷彿有一個無形的規則，那就是選擇先在中間的屏幕前探索Soul的即時3D建模功能。

掰開了講，那就是現場拍一張體驗者的照片，在幾秒鐘的時間內，通過分析90多個面部形狀參數和6個屬性參數，快速重建虛擬的面部特徵，完成虛擬3D形象的生成。

然後，體驗者就可以與3D形象對話了。

但光有語言的交流還不夠——

到這個時候，大家就會（不自覺地）挪到左邊那塊屏幕前面。

屏幕上也是自己創造出的虛擬3D形象。基於即時的人體動作識別、數字還原以及多模態對話交互能力，現場可以實現3D虛擬人與真人的沉浸式互動。

多沉浸呢？由於配備了即時運動跟蹤，你可以説一些話or擺動身體、四肢，來與屏幕那頭的ta低延遲交互。

值得多提一嘴，得益於Soul自家多模態AI模型在背後的支持，這兩個屏幕承載的AI體驗，允許語音、文本和物理交互同時進行。

AI社交，場景、模型的認知與感知都很重要

儘管這家公司已經推出了Soul海外版，但參加本次Gitex，其實是Soul在海外展會上的第一次亮相，

“從體驗層面來説，海外產品希望給用户端創造更好的粘性。”Soul CTO陶明解釋道，“主要還是以Soul這個主平台，來傳遞我們關於AIGC+社交的概念。”

陶明表示，以他所見，AI+社交這條賽道，無論國內外市場，都要有兩個必要條件。

一，是要持續地繼續往前發展。

二，是探索的場景和業務，其實現在還不是很明朗。

而Soul擁有的，是「人機對話」這個基礎點（或者稱為原子能力）。

在Soul的理念中，因為用户和業務之間其實存在鴻溝，所以要做的事不是把原子能力直接推向用户，而是要建一個AI being和Human being共存的社區。

單點的聊天會在這個社區發生，但是社區無法靠單點聊天維持，“大模型六小強做的一些AI聊天產品，都有支持單點聊天的能力，但持續的聊天難以為繼，這就是因為任何AI不在場景裏，人機單點聊天其實門檻很高。”

Soul更希望打造不同的場景（比如語聊房），利用一些規則和策略，讓人和AI在一起社交，過程難辨真人還是AI。

這裏的社交不會侷限在聊天這一件事情上，AI NPC和真人用户共同做同一件事，也很容易構建彼此之間的鏈接。

如陶明所説，Soul的AI+社交理念，最基礎的一點是“必須要保證人和AI在同一時空下”。類似於現實世界和現實世界的仿真，人和人的仿真對AI和人建立聯繫非常重要。

“如果只是單純聊天這件事，不太成立……一定要要發現場景，才能夠説能讓用户有更好的體驗。”

這一方面，Soul是怎麼基於理念來設計產品的呢？

舉幾個例子。

第一個，在人和人、人和AI的交互過程當中去打造更多的場景**。**

比如用户和AI聊天，你發一張照片讓它知道你感冒了，然後就能圍繞感冒這個話題繼續對話，而不是非要硬找話題。

第二個，和AI語音通話時，它聽到你周圍的環境音，判斷你在咖啡館或者音樂派對上，話題也能自然而然地展開了。

這就不難理解為什麼Soul在大模型方面堅持GPT-4o的方向，因為團隊認為一個AI，應當具有統一的感知能力和認知能力。

純有認知能力，並不能給用户帶來價值，因為用户是希望被感知到的。

而o1的方向同樣重要，因為o1加強了大模型的認知能力，其實就能給用户帶來很好的體驗。

社交平台做AI《Her》會有什麼不一樣嗎？

在社交平台這條賽道上，Soul是絕對的頭部梯隊玩家。很多人不知道的是，它也是國內最早將AI融入社交互動的平台之一。

App上線之初，Soul就開始搭建一些AI能力的基礎建設，兩個基於AI的引擎。

一個是靈犀引擎，基於Soul用户站內全場景畫像的智能推薦系統，通過AI技術，持續挖掘有效特徵，通過算法方式提高用户在內容方向的消費和互動體驗，提高用户建立關係的效率和質量。

另一個是NAWA引擎，為集AI、渲染與圖像處理於一體的集成化SDK，提供AR視頻技術、基於多模態感知與驅動的交互技術和基於重建的虛擬形象技術，能夠輸出包含Avatar表情驅動、美顏美妝、卡通化等數十種圖像處理與2D/3D渲染能力的引擎。用它創建的個性化3D頭像表現力更強，還能動起來。

2020年（ChatGPT掀起大浪之前），Soul就開始啓動對AIGC相關的算法研發工作，並在智能對話、圖像生成、語音&音樂生成等方面有了能力積累。

Soul在多模態領域發力很早，2023年Soul就推出自研垂類語言大模型Soul X，垂直應用於平台上多元社交互動場景。

例如智能對話機器人“AI苟蛋”、AI輔助聊天、虛擬陪伴等諸多工具和功能什麼的。

**△**在Soul上開啓AI輔助聊天

當時的Soul是這麼説的：

AIGC帶給社交的不僅僅是交互效率、交互質量和交互體驗的提升，同時以智能體和虛擬人為代表的交互對象也在發生變革，這意味着社交出現代際的迭代，社交的範圍也會被重新定義，社交產品的形態也在發生改變。

今年，Soul持續開搞“AIGC+社交”。

目標很明確：

在有技術能力基礎、有用户實際需求、認準“模應一體”方向的情況下，推動AIGC和社交場景的深度融合。

Soul推出了最新的端到端多模態AI模型，該模型集成了文本、語音和視覺交互，具備超低延遲、聲音擬真、情緒感知等特點。

端到端尤其顯著地降低了聊天的延遲。

陶明披露，Soul現在的語音對話延遲不到200毫秒，“這不再像以前那樣是一個連續的過程，我們首先生成文本和圖像，然後將它們轉換為語音。現在，我們將語音和 NLP 統一到一個集成流程中，從而消除了滯後問題。”

而同時期的“數字孿生”功能，則允許用户根據過去的交互或自定義設置，創建自己的個性化虛擬版本。

現在，剛剛在Gitex上秀了一把的Soul，又快宣佈自己的新進展了。

陶明表示，預計到了11月，平台將推出全雙工視頻通話能力， Soul的AI NPC就能“看得見了”。

也就是説，下個月，用户們就能在Soul裏實時和AI的視頻聊天了，對方還是有形象、有表情、有記憶，會對前幾天不經意咳嗽過一句的你，説感冒好了沒有的那種。

這就很《Her》！

之前國內外很多團隊都發過各種版本的《Her》，但這次的期待有所不同——

不是在期待語音是否最逼真、延遲是否最低，口型是否對得最好，而是期待，加入AI元素的社交平台公司，熟諳搞社交那一套，在這個人機交互的產品/功能上，會不會有特別的設計。

不過時間還沒到，只有先期待一波咯～

關於Gitex

Soul參加的這個海外展會，GITEX GLOBAL全球三大IT展之一，本週五在阿聯酋迪拜落下帷幕。

這是第44屆GITEX GLOBAL，不出意外創下新高，規模迄今為止最大：

吸引了超過6500家參展商、1800家初創企業、1200名投資者以及來自180多個國家的政府參與。

連迪拜王室也組團蒞臨現場視察……

這陣仗，讓本來就肩膀挨着肩膀的場館現場更是水泄不通了。

儘管如此，量子位還是拿出go shopping的激情，在二十幾個展館裏一個挨一個地認真逛。

終於，不僅打卡了很多中國企業出海來參展的展台，比如阿里、華為、騰訊、塗鴉智能、普渡機器人等等；

也看到了全球範圍內很多AI公司的身影出現在現場，比如英國AI獨角獸Builder.ai（對沒錯，背後微軟支持，但創始人一直官司不斷的那家）、中國的智譜華章等。

當然，如果對電子方面感興趣的朋友們，一定會逛得更快樂，現場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有，還有很多沒太看明白設計（但中東土豪們肯定喜歡）的飛行器。

不簡單啊不簡單。