騰訊加速造“世界”_風聞
字母榜-字母榜官方账号-让未来不止于大45分钟前

“如果沒有開源,沒有去和社區交流,我們靠閉門造車是空想不出來的。”近日,在接受字母榜獨家專訪時,騰訊混元3D團隊負責人郭春超這樣説道。
郭春超的感慨來自於在近期的開源社區中,**國產模型“攪動”了整個大模型業界的開源生態, Hugging Face的模型熱度榜單被中國企業連續“霸榜”。最多時,前10開源席位中有9個來自中國。**在排名前幾的選手中,除了 “Text Generation”(文本生成)、“Text to Image”(文生圖)等常見模態外,一款並不常見的“Image to 3D”(圖生3D)模型擠入前三名,榜單中顯示其為騰訊開發的“混元3D世界模型1.0”。
“混元3D世界模型1.0”是騰訊混元3D系列的最新成果,在不久前結束的WAIC(世界人工智能大會)上發佈並全面開源。在產品演示中,該模型可以用一句話、一張圖生成一個可漫遊、可編輯的3D世界。儘管有分析顯示,該模型能力還在早期階段,但其技術論文迅速登頂了Hugging Face的論文熱度榜單。
近年來,騰訊在大模型領域版圖不斷擴展,但在傳統的語言模型板塊,騰訊旗下元寶等C端產品,就陷入了行業內同類產品的高強度“內卷”。而在有些“冷門”的3D模型領域,騰訊卻迅速在國內較早形成產品規模化。這背後的驅動力,似乎來自那些騰訊最賺錢的業務。
“騰訊在遊戲、影視、動漫等業務都會用到3D建模,為混元3D模型的發展提供了需求場景。”據郭春超介紹,已經有數十個遊戲的項目組在使用混元3D的模型能力。一位騰訊方面人士向字母榜表示,這其中就包括《元夢之星》等主力產品。
據騰訊方面人士介紹,自2024年11月發佈並開源首代3D生成模型以來,混元3D系列持續迭代。今年4月,混元3D系列迭代至**2.5版本,在建模精細度上大幅提升,有效面片數增加超10倍。**同時,騰訊還發布了面向創作者的3D AI創作引擎,以滿足遊戲開發、動畫影視及3D打印等領域的專業需求。相關數據顯示,混元3D模型系列在Hugging Face平台下載量已超過230萬。

“越來越多的遊戲開發者、3D打印企業及專業設計師採用混元3D模型來生成數字資產。”在剛剛發佈的騰訊Q2財報中,提到混元3D系列受到業內認可的現狀,對於模型的技術水平,財報中的描述為“領先行業的幾何精度、紋理真實度、指令與3D對齊能力。”
另一方面,“3D世界模型”是3D生成大模型中的新鋭領域,直到去年才在業內嶄露頭角。去年年底,“AI教母”李飛飛創業公司World Labs展示了一圖生成3D世界的AI系統,隨後,谷歌DeepMind也發佈了可通過單張圖片或文字描述,生成3D場景的大型基礎世界模型Genie 2,並於上週更新至Genie 3。
Genie 3能以每秒 24 幀的速度即時導航,並以 720P分辨率保持幾分鐘的一致性。不過,和混元3D世界的技術路線不同,Genie 3更側重於打造一個動態、多幀一致的交互式模擬世界,可以逐幀生成一個即時交互3d場景,但並不具備像混元3D世界那樣導出mesh場景的能力。
事實上,“世界模型”並不是一個新鮮概念,早在上世紀90年代開始,就已在機器人導航工具領域應用。而進入大模型時代後,由人工智能驅動的世界模型,已經逐漸在包括具身智能、AR/VR、遊戲影視開發等領域內,發揮基建性的作用。
“它既可以復刻一個虛擬的世界,去創造一個虛擬社交/遊戲的場景,也可以創造一個模擬真實場景、比如展覽會等複製現實的形態。”談及3D世界模型給未來提供的想象空間,郭春超提供了他的思考。
為什麼騰訊要瞄準3D模型賽道?3D世界模型真的能給遊戲/動畫行業帶來產業革命嗎?日前,在深圳的一個炎熱午後,郭春超向字母榜回應了上述問題。
“在這個行業內,只要一中斷,就在業界沒有聲音了。”在郭春超看來,想要在新領域站穩腳跟,對新技術的持續跟進和投入。這樣的觀點在業內並不缺少案例, Meta早在去年就發佈了Meta 3D Gen,一度處於業內領先的水平。但隨後Meta並未持續在3D生成領域發力,更新節奏一度中斷,直到今年5月才推出Meta 3D Gen2.0。
“一個模型團隊需要持續交付出好的東西,如果有一個階段沒有交付出來,後面可能就要還‘技術債’。” 總結混元3D團隊的發展歷程,郭春超這樣説道。
|對話|
3D大模型,正在前半程奔跑
字母榜:和其他類型的大模型不同,3D生成模型是大眾用户感知相對較弱的領域。作為資深從業者,你能簡單總結一下目前3D生成所處的階段嗎?
郭春超:3D模型是一個發展相對較新、較晚的領域,大約在2024年業界才開始加大投入、今年才看到商業拐點並爆發。相比之下,LLM(大語言模型)從2022年就出現了比較成熟的產品,比如GPT3.5的出現。現在所處的階段,可以類比在LLM中,GPT2-GPT3之間並接近GPT3的一個狀態。
字母榜:你是説,3D生成模型還在一個比較早期的階段?
郭春超:是的。現在屬於是前半段賽程,在3D資產生成領域,希望到年底能做到類比LLM中GPT3.5的水平。
字母榜:在3D模型領域,騰訊是國內走得比較快、做得也比較多的一家企業,而其他國內頭部企業似乎沒有將3D模型作為主要方向。為什麼騰訊會瞄準3D模型賽道,這背後有怎樣的戰略考量?是否有來自公司內部的場景或需求,在驅動你們做這個事情?
郭春超:我們主要圍繞兩個大方向進行佈局。一個是業界的技術發展趨勢,另一個是我們騰訊的業務需求。在技術發展趨勢上,過去一年中,業內3D模態的發展速度非常快。國外企業像Meta、Google都在3D模型領域有重點投入,3D模態對我們理解三維物理世界必不可少。
從自身業務佈局角度而言,騰訊在遊戲、影視、動漫等業務都會用到3D建模,為混元3D模型的發展提供了需求場景。至於國內其他的企業,在這方面可能也有佈局,但不一定像騰訊投入這麼大。
字母榜:有沒有混元3D團隊與上述內部業務合作的具體案例?哪些團隊和混元3D業務的關聯是最緊密的?
郭春超:比如在遊戲板塊,我們已經合作了多個團隊,但由於保密原因不能公開。不過,已經有數十個遊戲的項目組在使用混元3D的模型能力。
另一方面,我們和騰訊雲是內部合作關係,騰訊雲會把混元3D的一些能力賦能到外部。比如説設計Agent Lovart,以及3D 打印品牌拓竹科技、創想三維等。

字母榜:在迭代模型能力的時候,你們會參考內部團隊的意見或需求嗎?
郭春超:這個肯定會的。基本上我們會把很多業務共性的需求彙總起來,作為後續研發方向的指導。
AI“造”世界的抽卡難題
字母榜:今年1月,3D AI創作引擎2.0上線時,你曾表示:“3D模型生產的視覺合格率,僅用一年時間就從20%提升到60%的水平。”而混元3D世界模型的生成場景要更復雜,目前該模型生成質量符合你的預期嗎?
郭春超:世界模型目前還處於早期階段,可能比混元3D 1.0當時所處的階段還要再早一點。單個物體生成,模型輸出的就是單個資產,像一個人、一張桌子子,可約束的條件相對較多。
但世界模型是一整個開放3D世界的生成,有真實的、有虛擬的;有自然的、也有室內的。所以它的生成難度較高,涉及空間穩定性、物理規律等影響因素也更多,因此它的發展可能需要更長時間。
字母榜:如果要量化混元3D世界模型的合格率,你認為能達到多少?
郭春超:不同的任務不一樣。如果是簡單的一個展廳,只是進入這個場景瀏覽一下,目前能做到30%-40%的合格率。如果有更高品質的要求,比如説在自動駕駛場景,或者高品質遊戲的搭建,那以目前的模型能力,可能連10%的合格率都做不到。
字母榜:説起合格率的問題,背後其實有一個可控性的因素。相比物體3D模型,3D世界模型的生成任務更復雜,對可控性要求是否會更高?
郭春超:關於可控性問題,本質上是模型能力能不能穩定激發出來。很多時候大模型在使用中需要“抽卡”(多次生成),通過強化學習等手段,我們希望把“抽卡”的能力穩定下來,大幅提高了可控性。
而對於3D世界模型而言,提高生成的穩定性是更復雜的工程,我們需要從數據端、模型架構、預訓練策略、後訓方法(包括SFT、強化訓練等環節),系統性的都“加固”一遍,最終才能逐步提升。
此外,在產品層面,我們後續也會逐漸降低用户使用門檻,比如説幫助用户去做更多的prompt改寫,亦或者提供更多模態的輸入,例如“文+圖”或“文+多張圖”,使其可控性能更契合用户的想法。
字母榜:在今年早些時候,騰訊的遊戲製作人王智剛老師曾表示,面數控制能力對遊戲研發來説是至關重要的,某些遊戲項目需要的3D模型可能只有幾千面,但一些大模型上來就是幾萬面。而相比3D物體生成,3D世界生成的複雜性會更高,針對這一問題你們是否有進展?
郭春超:針對如何控制3D世界模型的生成文件大小,我們一直在優化。最開始使用了3D高斯潑濺技術,但那會導致文件很大,後面我們將其轉成了面片的形式,壓縮了幾十倍的大小。
未來,相信隨着業界基建的發展,更好的渲染方式、更好的引擎出現,以及伴隨着模型層面的迭代,以及伴隨着模型層面的迭代,能把這個問題更好地解決。
字母榜:目前,網頁版的混元3D世界模型包含兩種生成模式,前一種是基於文本/圖像,生成一個全景圖式的Skybox,後一種則是基於全景圖去生成3D世界。不過,目前在網頁端,即使生成了一個3D網格世界,能夠探索的範圍也很小,為什麼要做這樣的限制?
郭春超:這是因為在純3D的場景裏面,如果想要大範圍探索,會涉及到很多參數的設置,比如説哪裏該有空氣牆,哪裏能進去,還是需要有專業人士進行進一步的調整。
目前,無論是創作3D單體還是3D場景,要打包到引擎當中去開發成一款遊戲,還是有一定的專業性。在3D世界模型的1.0階段,我們更多的是幫助創作者,去降低製作這些場景資產的門檻,但是還不能100%替代人工。
下一代3D模型:交互性+真實性
字母榜:行業也有類似的產品,宣稱可以即時生成遊戲世界。這是某個海外團隊的產品demo,和混元3D世界模型對比的話,你認為這兩個產品的技術路線有什麼差異?
郭春超:看了一下演示,他們可能採用的是視頻生成的模式,本質上是預測畫面的下一幀。演示中的人物形象是一直往前走的,如果走了一會再回頭,會發現後面的山或者其他素材會消失。事實上,因為視頻生成數據量非常大,目前視頻生成技術還不能徹底進入遊戲的管線。
字母榜:不過即時生成遊戲世界的理念,最近在業內熱度還蠻高,混元下一步會有這種想法嗎?
郭春超:下一步,我們探索會結合3D和2D場景下的幾種模態,推出一個World Play的交互模型,預計在今年下半年推出。這個版本有望既解決了2D穩定性的不足,又解決了3D生成多樣性的不足,把兩者的優點結合起來。

圖注:混元世界模型1.0應用概覽圖
字母榜:此前你曾表示,3D生成模型的發展還面臨一些挑戰。其中之一是數據的不足,在3D模型領域只有千萬量級的數據,並且沒有被充分的利用。目前你們在數據利用層面是否有新的進展?
郭春超:是的。我們目前用了大量的圖和視頻的場景,用來緩解了3D素材產能不足。尤其是大量的視頻場景,可以轉化為3D信息,進而指導我們去做三維世界的生成。而且最終生成的3D世界,既可以以3D的形式保存,也可以渲染成視頻,得到一個視頻或某一幀圖像。
當然,在純3D文件領域,我們基於很多遊戲資產等內容,半自動化搭建了很多3D場景。所以,在混元3D場景(世界)訓練中,既用到了圖像、視頻,也用到了很多原生3D場景。相比此前的3D物體模型,在數據的豐富度有了較大提升。
字母榜:我們也留意到了前段時間發佈的“混元遊戲視覺的生成平台”。混元3D系列該平台上也扮演了比較重要的角色,這是混元3D業務在應用層面規劃的一部分嗎?
郭春超:那個遊戲平台更多的是我們針對遊戲行業做的第一步的解決方案,它會持續迭代,後面我們也會有更多的遊戲相關的功能加入到裏面,形成一個更完整的遊戲Paas(平台及服務)解決方案。
我們會把遊戲管線裏面達標的、能夠符合工業化生產標準的能力,集成到遊戲平台裏面去。但如果是還處於前期探索階段的能力,我們會先研發一段時間,達到工業化水準時再搬進去。
字母榜:按照你之前的評價,混元3D世界模型似乎是你説的後者,離工業化還有些距離。
郭春超:距離遊戲管線是這樣,還需要一段時間。如果只是用在一些VR的觀看場景,可能已經部分可用了。
字母榜:混元3D世界模型2.0的一些優化方向,能不能透露一下?
郭春超:我們的2.0會在真實世界場景呈現上進行比較大的投入。因為目前的1.0更多聚焦在虛擬世界生成上,但是現實中也有很多應用場景是需要真實感的,比如做一個線上的展覽會,想讓人有身臨其境的感覺,那就需要提升模型搭建真實場景的能力。
字母榜:近期WAIC上騰訊也同步了一些具身智能的進展,其中有提到“多模態感知”這個板塊,這一部分會有混元3D能力的介入嗎。
郭春超:新推出的混元3D世界模型暫時沒有在具身智能裏面應用,但是我希望後面能提供3D的場景或者是世界生成的能力,包括剛剛提到的世界模型2.0,能夠更多地去賦能具身智能場景。
開源擁抱未來,思考星辰大海
字母榜:回顧過去9個月,混元3D系列陸續發佈並開源了多款模型,此前還更新了一個面向專業設計領域的Hunyuan3D-PolyGen。在規劃這些細分模型場景,或者説模型產品矩陣時,你們考慮的因素有哪些?
郭春超:我們就主要考慮的是兩個大的方向。第一個大的方向,是怎麼做好當下。第二個大的方向,是怎麼根據技術發展去拓展未來。
像我們現在做的3D資產的生成,更多的是服務於當下的業務需求。而着眼於未來,像近期推出的混元3D世界模型,可能短期內無法帶來天翻地覆的變化,但隨着技術的完善和成熟,未來它一定能“革命”掉很多東西。從創作方式到工業流程生產的方式,都是可能被“革命”掉的,我們發佈開源就是圍繞這兩個思路來做的。
字母榜:3D世界模型1.0,目前看起來還是有點投石問路的意思。
郭春超:目前還處於比較早期,它會在部分場景,在VR或者是一些大家做原型場景的驗證有用。但是很多事情是需要大家先把這個生態給做起來,讓開源社區活躍起來,才會有更多研究者進入到這個領域裏面。
字母榜:説到開源,混元3D系列模型的在Hugging Face的下載量突破了230萬。您怎麼理解開源社區中,廣大開發者給你們的反饋?
郭春超:我們開發團隊和社區是一個雙向奔赴、互幫互助的狀態,社區裏的開發者能夠基於我們發佈的技術成果進行改進,降低他們的研發門檻。比如説一個開發者是研究世界模型領域的,或者是做自動駕駛領域的人,就能比較輕鬆把這個用起來。
如果沒有開源,沒有去和社區交流,我們靠閉門造車是空想不出來的。他們也給了我們非常多的信息輸入,因此我覺得開源社區是一個雙向共贏的事情。
字母榜:所以其實大家都非常渴望擁抱新業態,哪怕面對的是一個還不夠成熟的產品。
郭春超:是的,如果一個事情已經到了商業化的拐點……
字母榜:那就該閉源了?
郭春超:(笑)這個問題我就不多做評論,但是如果到了100%商業化拐點,可能業界研究的人就比較少了。舉個例子,就像手機的人臉識別已經非常成熟,可用率也很高,再做這個算法研發ROI就十分有限。所以整個大模型界研究這個領域的人就比較少了,研究者的熱情更多是探索AGI怎麼實現,思考一些星辰大海的領域。
字母榜:回顧過去9個月,雖然時間不長,但不管是在模型數量還是生成質量上,混元3D系列迭代得非常快,這背後的原因是什麼?
郭春超:核心是做大模型三要素:算力、數據、人才,我們在這三個方面都相對做的比較好。同時依託混元大模型這個平台,包括公司層面上也給了混元特別大的支持。把三要素湊齊,是我認為能做成的第一個原因。
第二個原因是團隊組織形式,我們團隊非常年輕且國際化,團隊博士比例大約佔2/3,基本上都來自於海內外名校。此外,我們團隊一直堅持工業化的打法,在團隊組織和運作上都是保持非常“卷”的狀態。我認為以上兩個方面是能夠讓這個模型技術快速迭代的最大原因。