谷歌,暗搓搓發了一個“遊戲版 sora”_風聞
极客公园-极客公园官方账号-39分钟前

馬斯克也不得不讚了一句「泰褲辣」。
作者 | Xin Ling
編輯| 靖宇****
遊戲世界可能要變天了。
繼李飛飛空間智能發佈「圖片生成 3D 世界」的 AI 系統後,當地時間 12 月 5 日,Google DeepMind 推出了其最新的基礎世界模型——Genie 2,同樣是通過一張圖像或文字描述,就可以生成可供人類或 AI 智能體遊玩的 3D 場景。相比李飛飛的發佈效果,Genie 2 增加了更復雜的交互功能。
Google 介紹稱,用户只需提供一張由 Imagen 3 生成的圖像和相應的文字描述,Genie 2 便能生成一個可交互的 3D 環境,用户可以通過鼠標和鍵盤在其中自由探索,最長可持續一分鐘。該模型具有「擴展場景」的能力,不僅能夠保持生成環境的一致性,還能在用户移動時準確呈現視野中消失的部分。
Google DeepMind 在官網展示了一系列效果動圖,進一步説明 Genie2 在生成過程中能夠模擬物體交互、動畫、逼真的光照、物理反射效果,以及 NPC 的行為,許多生成的場景畫質接近 3A 級別的遊戲,甚至在物體視角一致性和空間記憶方面表現優異,具有模擬物理法則的能力。
這些能力堪稱震撼,因為目前要達到如此效果仍需遊戲開發配合美術花費大量時間才能完成。網友驚呼,這次發佈進一步模糊了物理世界和數字世界的界限,讓人們看到了如「頭號玩家」般世界模型的未來。
01
通過遊戲,
生成無限的交互式世界

圖片來源:Google DeepMind 官網
幾十年來,遊戲一直是人工智能研究的基石。遊戲的沉浸感和可控性,以及它們所帶來的可衡量的挑戰,為測試和推進人工智能提供了理想的環境。從人工智能發展初期掌握 Atari 遊戲,到 AlphaGo 在圍棋中取得的改變世界的勝利,再到 AlphaStar 在星際爭霸 II 中的統治地位,DeepMind 不斷展示遊戲作為人工智能試驗場的潛力。
然而,在訓練通用具身代理(能夠以多種方式學習與物理和虛擬世界互動的人工智能)方面,一直面臨着一個重大障礙,那就是缺乏多樣化的訓練環境。
傳統的訓練工具無法提供足夠的多樣性和深度,因此也無法讓人工智能代理充分感知現實世界的複雜性。Genie 2 旨在通過遊戲生成無限的交互式世界來解決這一問題。
Genie 2 的與眾不同之處,在於它能夠按需創建高度可定製的遊戲。簡單輸入圖像作為提示,系統便創建出可玩的世界,以適應特定的訓練或遊戲需求。這種靈活性讓人工智能研究人員能夠使用代理迎接永無止境的挑戰,幫助他們培養可轉移到現實世界場景中的技能。這有可能徹底改變開發者測試和改進 AI 系統的方式,讓人們利用 AI 更好的釋放自身的創造力。
通過使用 Genie 2 快速創建豐富多樣的環境,研究人員可以生成在訓練過程中未曾見過的評估任務。例如,Google 展示了一個與遊戲開發者合作開發的 SIMA 代理的示例,該代理能夠根據一張單獨的圖像提示,來合成並執行在之前未曾見過的環境中的指令。

圖像由 Imagen 3 生成,prompt:「第三人稱開放世界探索遊戲的截圖。玩家扮演一名正在探索森林的冒險者。左邊有一棟房子,門是紅色的,右邊有一棟房子,門是藍色的。攝像機位於玩家正後方。
SIMA 代理旨在通過遵循自然語言指令來完成一系列 3D 遊戲世界中的任務。在這裏,Google 使用 Genie 2 生成一個有兩扇門(一扇藍門和一扇紅門)的 3D 環境,並向 SIMA 代理通過鍵盤和鼠標輸入「打開紅門」或「打開藍門」的指令,便可控制角色做出相應動作。
此外,Genie 2 還可以:
智能地響應鍵盤上的按鍵所採取的操作;
從同一起始框架生成不同的軌跡;
記住曾經生成過的內容,具有空間上下文;
在長達一分鐘的時間裏保持世界一致性;
創建不同風格的世界,比如第一人稱或者卡通風格;
支持創建複雜的 3D 結構視覺場景;
支持模擬物理交互,氣球爆炸、射擊炸藥桶等;
學習瞭如何為執行不同活動的各種類型的角色製作動畫;
與其他智能體甚至和它們的複雜交互進行建模;
進行強大的物理特性模擬:流體、煙霧、重力、光照、反射;
支持從現實世界的圖像進行生成。
Genie 2 最令人興奮的意義之一,是它能夠促進一般代理的訓練。與擅長單一任務(例如下棋或回答瑣事)的專業代理不同,一般代理可以適應各種各樣的挑戰,就像人類在現實世界解決各種問題一樣。通過將這些代理暴露在新環境中,Genie 2 使它們能夠應對複雜的現實世界場景,在這些場景中,適應性和多功能性至關重要。
雖然這項研究仍處於早期階段,代理和環境生成能力都還有很大的改進空間,但毫無疑問,Genie 2 是解決安全訓練具體代理的結構性問題的途徑,同時展現了邁向 AGI 所需的廣度和通用性的可能性。
除了推動 AI 研究的發展,Genie 2 還為遊戲開發和交互式原型設計的工作提供了新的想象空間。對遊戲開發人員,尤其獨立開發者來説,他們可以使用 Genie 2 快速創建獨特、可玩的體驗,從而減少傳統設計流程的時間和成本。Genie 2 對遊戲開發的價值如此顯而易見,在 Genie 2 發佈後,DeepMind CEO 在「X」上熱情邀請馬斯克一起製作 AI 遊戲,馬斯克則回覆:
「Cool」。
對於遊戲玩家來説,Genie 2 背後的技術預示着,未來的遊戲環境將比以往任何時候都更加動態、個性化和身臨其境。想象一下,視頻遊戲可以即時適應玩家的技能水平或偏好,提供真正量身定製的體驗。實現「頭號玩家」的未來世界也許離我們越來越近了。
甚至,Genie 2 的影響遠遠超出了遊戲領域。
Genie 2 可以作為虛擬現實、模擬和機器人技術創新的平台。例如,機器人可以在 Genie 2 生成的遊戲環境中進行訓練,學習如何在陌生的地形上導航或以新的方式與物體互動。同樣,虛擬助手也可以通過在這些環境中練習來提高理解和響應現實世界任務的能力。這大概也是 Google DeepMind 在介紹 Genie 2 時的定位,是「基礎世界模型」,而非僅僅是「遊戲生成模型」的原因。
02
解鎖 3D 敍事,
或成為技術革命新紀元
李飛飛在「X」公佈「圖片生成 3D 世界」的 AI 系統時,沒有對背後的技術原理做相應説明。導致網友們一邊驚歎技術能力之精湛,一邊遺憾無法探究其背後原理。
在 Google DeepMind 官網,Google 對 Genie 2 背後原理簡單介紹為「是一個自迴歸潛在擴散模型,在大型視頻數據集上進行訓練」,並用超鏈接的方式引用了相關論文。筆者對該介紹進行了簡單分析與理解,原理大概如下:

圖片來源:Google DeepMind 官網
Genie 2 是一種自迴歸擴散模型,通過分析大量的視頻數據,學習如何生成視頻內容。具體來説,是通過自動編碼器和大型 transformer 動態模型的共同協作,使 Genie 2 能夠從原始視頻中提取關鍵信息,並通過深度學習模型生成更新的視頻場景。
首先,Genie 2 使用一個叫做自動編碼器的工具來提取視頻中的重要信息。通過自動編碼器,視頻幀中的關鍵特徵被壓縮成一種簡化的形式,稱為「潛在幀」。可以把這個過程比作將每一幀視頻壓縮成一個更小的數據包,保留其中信息量最大的部分。這些「潛在幀」並不是完整的視頻內容,而是對視頻中最重要元素的高度抽象和簡化。
接下來,這些「潛在幀」會被輸入到大型 transformer 動態模型中。該模型通過「因果掩碼」技術來學習視頻中幀與幀之間的關係。「因果掩碼」幫助模型理解幀之間的順序,使得視頻內容能夠連貫流暢。例如,模型能夠學習到一個動作是如何從一個幀平滑過渡到下一個幀一幀的,確保視頻的動態變化變焦不會突兀。
在視頻生成的過程中,Genie 2 採用了一種稱為自迴歸採樣的方法。這意味着它不會一次性生成整個視頻,而是逐幀生成,每一幀都依賴於前一幀的信息來決定下一幀的內容。這種方法保證了視頻的連續性,使得每個畫面都自然地銜接在一起,從而提升了視頻的真實感和流暢度。
另外,Genie 2 還引入了一種名為無分類指導的技術,用於提高生成動作的可控性。通過這種技術,Genie 2 在生成視頻時,可以更加精確地控制視頻中的動作和場景,減少了生成過程中可能出現的不確定性或不連貫的動作,從而增強了對視頻內容的可控性。
隨着全球科技巨頭紛紛將目光投向 AI 與物理世界的融合,我們正站在一個新的技術革命的門檻上。雖然在步伐上看似慢於問答型 AI 如 ChatGPT 的進化速度,但 3D AI 的發展預示着更廣闊的應用前景。正如李飛飛的 ImageNet 項目曾引領計算機視覺領域的 AI 創業浪潮,3D AI 技術如今可能正掀起一場規模更大的革命。它不僅將推動技術的進步,更將深刻改變我們與世界的互動方式,從機器人技術到自動駕駛汽車,從虛擬現實到城市規劃,3D AI 的應用潛力無限。
因此,我們可以預見,3D AI 將開啓一個充滿創新與機遇的新時代。它將不僅僅是技術的迭代,更是對人類生活方式的一次深刻重塑,推動我們進入一個更加智能、更加互聯的世界。
*頭圖來源:Google DeepMind 官網
本文為極客公園原創文章,轉載請聯繫極客君微信 geekparkGO