只用45天達成100萬美金ARR,這家創業公司找到了AI落地的解法_風聞
极客公园-极客公园官方账号-44分钟前

3D 生成一定要做到 Production-Ready。
作者 | 甘德
45 天,3D 生成產品 Rodin 達成了 100 萬美元 ARR。這是一個重要的里程碑,作為對比,GenAI 領域最成功的初創公司之一 HeyGen 達到這個數字花了 7 個月。
Rodin 來自影眸科技,剛剛完成數千萬美元的 A 輪融資,投資方包括字節跳動和美團龍珠等。
四位聯創,平均年齡 25 歲,但他們已經創業四年。四年前,都是同學,技術多自信,業務就多坎坷。
我們和 CEO 吳迪、CTO 張啓煊坐下聊了很久,聽到很多他們問自己的問題,那些問題在四年的探索中慢慢有了答案。
「我們技術這麼好,客户為什麼不用?」第一個問題,超典型技術小天才。
影眸已經花了四年求解這個問題。

01
3D 的表達是「割裂」的
Rodin 1.0 用 45 天邁過了 100 萬美元 ARR,那已經是半年前的故事了。現在 Rodin 陸續完成幾次版本迭代,升級到 1.5 版本,模型性能已經完成一次跨越。
1.5 版本最重要的特點是:能夠生成直角。聽上去卻很「簡單」,就是更準確地生成直線、直角和或者平滑曲面,以及更好的邊緣鋭度。
當外界對 3D 生成的期待變成動輒用幾句自然語言就能變出現實世界一角,一個更準確的「直角」,價值在哪裏?

使用 Rodin 創建的影視級作品
「3D 生成,生成的究竟是什麼?」這是最基礎,但也最關鍵的問題。
有人覺得是視頻,或者説,大多數人對 3D 的理解,很大程度上等同於一段充滿 3D 元素的視頻內容。90 年代的《玩具總動員》,後來李安的數字版威爾史密斯,早年多邊形的遊戲,去年爆火的《黑神話:悟空》,所有人都能通過平面感受到 3D 作為一種影像呈現方式的魅力,不管是電影銀幕,還是遊戲電腦的屏幕。
於是,從 2D 視頻出發模仿 3D,成為了一條很重要的技術路線。
Sora 在 2024 年初橫空出世,demo 視頻裏的高一致性,引發了人們探討它是否會直接覆蓋 3D 生成的工作。但很快,Sora 遲遲不發,追隨者表現一般,視頻模型距離「電影級」或加入遊戲管線還有很長的時間。
原因很多,比如生成式 AI 的能力仍然被高估了,就像電影概念藝術家和插畫家裏德·索森(Reid Southen)在早些時候的判斷,「這些視頻有點太草率了,有太多問題,尤其是時間一致性和額外肢體之類的偽影」。
但一個被忽視的問題在於,一段演示着 3D 形象的畫面,到底是「3D」,還是更偏向「視頻」?
視頻作品意味着直接面對着它的消費者,但遊戲和影視創作中的「3D」概念,本身是一個完整工業中的一環,比如一座虛擬建模的花果山,它需要能夠在後續的創作環節中被繼續使用。
「3D 生成,究竟生成的是什麼?」
「與視頻不同,3D 是個工業,它有下游環節。視頻輸出之後用户可以直接分享,手機裏就可以看,但是 3D 生產好之後要想去進一步使用,需要適配渲染器,需要適配遊戲引擎,如果是具身智能的話,需要適配仿真軟件。這就要求我們對(模型)輸出的東西,需要和一些工業標準需要去做好對應。」
「在我們的理解裏,3D 是一種資產」,啓煊説,「文字、圖像、視頻,都是消費級,直接與 C 端用户見面,但 3D 不是。」

用户使用 Rodin 批量生成的 3D 資產
文字、圖像或者視頻發展到現在,都已經成為消費級的內容,這意味着他們都是直接與 C 端用户見面的。這在技術層面也就意味着,三個模態的表達已經在行業裏達成基本的一致。
「視頻有它的主流編碼,圖像可能目前主流的是一個二維矩陣,每個位置上記錄它顏色。文字可能就是一些字符上的編碼」,啓煊説,「但 3D 不是,到現在為止它的表達還是很割裂的」。
這種割裂是指,比如一個 3D 數字人的面部建模,可能會使用特定的格式來支持複雜的面部表情和身體動畫,這通常需要高精度的網格和骨骼綁定技術;大逃殺遊戲中的建模更注重性能和效率,對地上的一把槍通常採用低多邊形風格的建模方式;而一款車在設計階段的 3D 建模,重點在於精確的幾何形狀和功能性表現,需要詳細地展示其內外結構、機械部件以及空氣動力學特性,這種建模通常需要使用專業的 CAD 軟件,並結合工程和設計的嚴格標準,以確保模型的準確性和實用性。
所有對 3D 數據有需求的行業,目前幾乎都有着一套只對自身場景適用的標準和表徵方式,它們的數據信息相互之間不可複用。
影眸科技團隊一直希望將 3D 數據的表徵統一起來,變成一種標準化的資產,這件事從 Rodin 1.0 開始就在做,團隊提出了一種 remesh 的模型重置策略,通過把每個模型都稍微「變厚」一點點來達到表徵一致,「變厚」之後對生成 3D 的美觀性和它所包含的信息其實沒有太大的影響,但是整個模型會看起來都圓鼓鼓的。
但在 Rodin 1.0 真正落入工業的過程中,表徵的統一併不意味着生成的 3D 數據就可以順利的作為資產被被使用了。在大量真實的產品設計或遊戲工業裏,對 3D 資產大量的需求並不是可愛的萌寵或者一個用雲朵質地拼成的字母「A」,而是更偏向於無機形狀(用數學的構成方式,由直線或曲線,或直曲線相結合形成的面)以及鋭利邊緣感覺的東西。
無機形狀的生成能力、鋭利的邊緣以及非常乾淨的拓撲結構,這是 Rodin 1.5 在 3D 生成能力上最凸顯出來的的性能提升。而這種對於 3D 生成數據在一致性和「可用」上的重視,是吳迪和啓煊這幾年用一個個坑踩出來的。
02
一定要 Production-Ready
幾年前,一個大客户讓初出茅廬的吳迪和啓煊等人第一次碰壁,那就是《流浪地球 2》。
《流浪地球 2》的中有一些劉德華和吳京變年輕的鏡頭,後期團隊希望用特效來呈現。2021 年年初,影眸團隊在上海張江搭了一座直徑 3 米的黑色球形框架,光源和攝像機遍佈球體內部,整個裝置佔滿了一整個房間,這是影眸科技當時用於高精度人物面部採集的第一代穹頂光場。穹頂光場做出來後,一些影視行業的團隊陸續來問,其中就包括《流浪地球 2》。

穹頂光場
吳迪和啓煊對自己研發出來的人臉掃描設備非常自信,但現實也非常慘淡。據吳迪回憶,「流浪地球團隊的人來看了效果後,問的第一個問題:這玩意咋用?」
不能用的原因是,最初的穹頂光場其實本質上是一套純打光的系統。一個人進入球體中心,通過 360 度的光源可以採集所有方向的光照,在這個基礎上,可以在後期去合成不同的光照環境,然後再通過換臉的方法把它給換上去。,邏輯上更偏向現在説的視頻生成。這使得它很難進入電影工業的 CG 管線。
「真的要用在 CG 管線上的 3D 人臉,它首先得是一個完整的 3D 模型,它有優秀的拓撲、可以反映出各種光照變化的材質、能控制並且做出各種表情,這樣它才能夠很好地被接入在後面去使用。」
在那之後不久,影眸科技做了一個重大的決定——砍掉了當時所有 base 2D 的技術研發投入,全面 all in 3D。生成路線從 2D 往 3D 的轉向背後,是影眸科技團隊內部對於「Production-Ready」的共識。
「Production-Ready」這個詞來自 CG 行業。CG 行業中有一個詞——後期(Post-Production),而「Production-Ready」的意思就是後期可用。

用户作品,70%模型來自 Rodin
從第一代側重平面數據採集的穹頂光場,在與客户不斷碰撞的過程中慢慢演進到後來第二代採集 3D 人臉數據的穹頂光場,再到隨着與客户的接觸,技術最終達到了採集數據可以直接用於影視遊戲數字角色的構建,「Production-Ready」逐漸成為影眸科技由內而外的一種理念。
「Production-Ready 不是個容易量化的指標,如果一定要説的具體一點,那就是在技術路線的設計、選擇的優先級上,我們會把生成結果的可用性作為一個很重要的思考點。打個比方,如果一個技術它能帶來視覺質量的提升,但是不會讓 Production-Ready 的距離更近,我們就不一定會去做」,啓煊説。
「Production-Ready」的觀念也直接決定了影眸科技在生成式 AI 浪潮來臨後,在 3D 生成上選擇了一條反常識的道路。
在當時最主流的觀念裏,3D 生成本質上是一種從 2D 的升維,在 Stable Diffusion 出現之後,通過 2D 擴散模型,結合 NeRF 等方法實現三維重建的過程。由於可以利用大量的 2D 圖像數據進行訓練,這類模型往往能夠生成多樣化的結果。
隨着多視角重建工作通過把 3D 資產的多視角 2D 圖像加入 2D 擴散模型的訓練數據,在一定程度上緩解了這類模型對 3D 世界的理解能力有限的問題,但侷限性在於,這類方法的起點終究是 2D 圖像,2D 數據終究只記錄了真實世界的一個側面,或者説投影,再多角度的圖像也無法完整描述一個三維內容,因此模型學到的東西依舊存在很多信息缺失,生成結果還是需要大量修正,難以滿足工業標準。
2D 升 3D 的路線,更像是在證明一個圖像模型見識了足夠多的圖像之後能夠理解 3D,但這種對 3D 的理解和工業上能夠被使用的 3D 數據仍然相去甚遠。從另一個角度,2D 升 3D 也反過來意味着一種對於 3D 信息的壓縮——就像一個 200 條邊的正多邊形仍然離一個理想的圓形有差距一樣。
影眸團隊,在大量的數字人和 3D 掃臉工作之後,面對這條 3D 生成裏看起來最有共識的技術路線,「沒辦法説服自己」。
「我們知道三維掃描這件事的上限在哪裏。當前,它達到最完美的地步也很難直接投入到實際生產裏,而拿 2D 的 Stable Diffusion 去升維到 3D 最好的情況也就是無限逼近了三維掃描的質量,憑什麼這種方法可以一步到位?」吳迪説。
3D 生成要能夠與人類工業對齊,只能走 3D 原生這條路,也就是拋棄從 2D 升維的想法,直接構建出 3D 模型。
計算機圖形學頂會 ACM SIGGRAPH 2024 大會上,影眸科技團隊的兩篇論文——可控 3D 原生 DiT 生成框架 CLAY 與 3D 服裝生成框架 DressCode——均入圍了最佳論文提名。論文中提出了一種 3D 原生的 diffusion transformer 架構,也就是完全從 3D 數據集訓練生成模型,從各種 3D 幾何形狀中提取豐富的 3D 先驗。
這兩篇論文的探索工作也引領了 3D 生成業內的技術路線變化,這之後 3D 原生開始取代 2D 升 3D,到現在已經是目前全球範圍內 3D 生成主流的探索路徑。

影眸團隊在 SIGGRAPH 上
03
從實驗室到創業公司
早在影眸創辦第一年,他們就曾做出過一款明星產品。
2021 年,一款叫「WAND」的二次元角色生成產品上線,上線第二天被一個知名的日本博主看到,然後迅速在國內熱鬧起來,在很短時間內拿到了 160 萬的用户量。

WAND 當年的 App Store 頁面
流量與關注隨之而來,「接不住」吳迪説。
流量並沒有給吳迪和啓煊帶來選擇成為哪種公司的機會,反而是要剝奪了這種選擇的權利。
「所有人都覺得我們應該把自己做成個「WAND」公司,包括我們周圍的人,還有一些想投資我們」,吳迪説。
但最終「WAND」公司沒有出現。不久後,吳迪和啓煊就主動停掉了「WAND」這個產品。現在外界更加熟悉的名字,是影眸科技和 Rodin。
「我們沒有走那條大家認為該走的路,因為我們的技術能力和我們想做的事情,還是在 3D 上。」
完全拋開圖片生成路線的決心,得到了陸奇博士的支持。
「既然做了這個決定,你們就要狠下心來,只做那個你們認為對的東西。」陸奇博士在 2021 年奇績創壇秋季路演之後和影眸團隊説。
2021 年末的奇績創壇 2021 秋季創業營路演上,陸奇博士像「教練」一般,邊回收着麥克風,邊與剛完成路演的創業者激情擊掌。這一期 4226 家創業公司中,最終錄取了 53 個項目。1.25% 的錄取率,其中就包括了影眸科技。
WAND 最終變成了讓吳迪和啓煊從實驗室走向商業世界的敲門磚。
吳迪在之後有問過陸奇博士為什麼會投自己這個團隊。同年爆火的 WAND 是那個讓奇績注意到這個上科大年輕團隊最初的契機,但最根本的原因在 WAND 背後,奇績看到了一個純研發團隊能夠難得在早期就具備商業化的思維。
這對一支 2021 年時平均年齡才 21 歲的創始團隊來説並不容易,但產品化和商業化這兩個非常企業式的思考維度,從影眸科技這個名字一開始在上科大的 MARS 實驗室中醖釀成立時就有了。
吳迪在 2015 年進入上科大,啓煊則是 2018 年,兩人先後進入了上科大以人工智能結合計算攝影為主要研究方向的 MARS 實驗室,那時的實驗室裏只有三位學生,也就是影眸科技最早的三位成員,第四位聯創在 2020 年進入 MARS 實驗室,這時候第一代的穹頂光場正在搭建,外界正是元宇宙和數字人概念勢頭正盛,吳迪和啓煊們看到了這套數字採集設備背後的商業前景,就在實驗室裏決定了影眸科技的成立。
上海科技大學是一個非常非常年輕的學校,創辦於 2013 年,吳迪是第二屆學生,那時候上科大還不是「雙一流高校」,校園只有一個宿舍樓,上課都要借其他學校的教室。
但有意思的地方在於,在上科大,無論是實驗室、學生會、還是最開始的課程,一切都要從頭開始搭建。吳迪很喜歡這種感覺,「唸書念出了創業的味道」。
或者用啓煊的話説,「(上科大頭兩年的情況)決定了當時學生的屬性,都是他們這種膽大的,aka 創業精神。」

影眸團隊在 SIGGRAPH Real-time Live!環節展示 Rodin 3D 生成
公司成立於 2020 年 6 月,之後的整整一年多時間,吳迪和啓煊都在生成內容和工業真實需求間的巨大落差之間受挫。將「Production-Ready」作為技術研發最核心的校準方向最初也是在這無數次受挫中形成的。
2021 年秋天,影眸拿到了第一筆來自奇績創壇的融資。在奇績創壇的路演日之後,他們又很快拿到了第二筆。
第二筆來自紅杉,吳迪記得敲定紅杉這筆融資的時候是 2021 年的聖誕節,那天下午他們見了好幾波投資人,直到很晚。「那天剛好是我們聖誕聚會,但弄到最後我跟吳迪就只是去聚會上結了個賬」,啓煊説。
這條創業道路並沒有從此一帆風順。從 2022 年開始,影眸科技在接近兩年時間裏沒有拿到融資,其中有一次融資過程消耗了吳迪大量的精力,卻最終沒能 close。
那次失敗帶來了兩個結果:
第一,影眸的性格,做 AI 創業,第一天就要考慮商業化,先活下去,保證現金流;
第二,徹底堅定 3D 原生路線的選擇。
「在這之前,我們做 3D 生成的想法是,招一個在 3D 生成領域有過嘗試的人來幫我們一起做,但那樣很可能跳不出當時技術路徑的慣性」,吳迪説,「恰恰是因為那次融資失敗,讓整個核心研發團隊下定決心,一定要做出真正可用的 3D 生成。」
幾個月後,有了最初的 Rodin 1.0。
04
3D 就是那塊拼圖
影眸希望 Rodin 成為 WAND 一樣的爆款 toC 產品嗎?
這個答案很明確。
「3D 生成最終一定會走向 C 端,但不是現在。」啓煊説,「現在拍一張圖片或者一段視頻可以很直接的分享社交平台上,但 3D 還不是一個可被分享的格式。」
或許新的硬件有機會,但肯定還需要時間。在那之前,「當你不清楚這個東西的終局在哪裏,不如先做,眼前永遠有很多值得攻克的問題。」吳迪確信,當前 3D 生成的機會,就在存量市場裏。
影視娛樂不必多説,工業領域對 3D 生成的需求也越來越多。比如建築設計,以往建築效果圖大多仰賴二維貼圖,算力限制了可視化的選擇。這種方法的侷限性相當大,比如燈光永遠看起來不正確,攝影機總是要在一定的高度上,動畫也是大禁區。3D 原生技術可以讓整個虛擬空間在任何光線情境、任何攝影機下運作,給建築可視化帶來了更多的想象力。
目前影眸已經與多個遊戲、影視、製造業等行業的龍頭企業展開合作,Rodin 的 SaaS 產品也積累了大量平面設計師、AR & VR 開發者、3D 打印愛好者等專業用户人羣。

Rodin 用户在 X 上的評價
「我們現在的目標是存量市場,存量市場有真實的需求,它能告訴我們,大家到底需要怎麼樣的 3D 生成模型?」吳迪説道。
那以後呢?
一年前 Sora 石破天驚的時候,曾經一度讓人懷疑行業是否還需要 3D。
啓煊印象很深,「視頻生成剛出來的時候,所有做傳統圖形學的——我們——都覺得它會被顛覆掉。」他解釋説,對 3DCG 來説,視頻生成意味着不再需要三維空間,直接拿到渲染結果,「這對傳統 CGI 技術衝擊非常大,做 3D 生成的會擔心有一天 3D 不再被需要了。」
尤其,雖然 Sora 當時是「期貨」,「但 OpenAI 在期貨這件事上,reputation 還挺好的。」
影眸的研發團隊開始頻繁瞭解、測試視頻模型。他們很快意識到,視頻生成在做的只是「仿真」,是「模擬」,再「逼近」最終想要的結果。
「它是一個 frame consistency(幀間一致性)的生成器,並不是建立在 World Model 之上,它做不到 world consistency(世界一致性)。」啓煊説,「這是兩個 level 的概念,如果只靠視頻生成,就只能停留在這裏。」
「但有意思的是,3D 模型原來在 CGI 工業裏做的,就是 world consistency。」
一段電影中的 CG 視頻,比如房間裏的一個人,首先需要房間裏每個物品的模型,每個模型都需要表達光照屬性的材質,人物需要動作的動畫,需要虛擬世界裏有一個攝影,對人物的每一幀動作做光線追蹤,這時候光追就是渲染器的工作,通常離線渲染一個電影級 CG,往往需要集羣級別的渲染才能達到逼真效果。
意識到這點,再看視頻生成,在以上的管線裏,似乎「只取代了離線渲染器的工作——而不是整個 CGI 工業」。
「視頻不是 world model,」吳迪説,「它可能是 world model 輸出,展示給大眾時的一種形態。」
「一致性問題,尤其是 world-level 一致性,這是個信息量的問題,」啓煊解釋説,「如果這個世界的信息變化的描述,不能輸入給 AI,它就一定做不到這種 consistency。」
通向世界模型,至少需要 world consistency,所以這個時候,就需要一個新的模塊做好控制(control)。
缺少一塊拼圖,恰好就是 3D。
「我們有自己心目中的 World Model。」有很多正在做、值得做的事,想想都很興奮。
「這段就別寫了,等我們做好再拿給大家看吧。」
*頭圖來源:影眸科技
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO