母豬上不了樹！Sora團隊首次專訪露陷，約等於什麼都沒説_風聞

大眼联盟-29分钟前

2024-03-13

前兩天外媒對Sora核心團隊做了次專訪，看了下原視頻，約等於什麼都沒説，場面神似發改委馬科長講話。

用網友的話來説，就像鏡頭外有一個律師拿着槍對着這幫人。

Sora已經發布快一個月了，剛發佈時Sora驚為天人，帶給人們無限遐想，甚至有不少人表示AGI就要來了。

然而，目前為止只有少數人用上了Sora，再好的東西用不上，久而久之人們也就失去了興趣。

就在人們把Sora翻得底朝天，該聊的都聊完了，好像實在沒活了，OpenAI派了幾個人出來接受一下采訪。

16分鐘的專訪裏，Sora的核心團隊成員説了很多內容，但都是一些已知的內容，沒有什麼新的，信息好像還不如Sora的技術文檔多。

來看看外國人是怎麼打太極的。

這次訪談的三位Sora核心成員分別是Bill Peebles、Tim Brooks和Aditya Ramesh。

首先是大家最關心的問題，我們什麼時候可以用到Sora？

“別急**，**普通人短期內還用不上。”

Sora成員表示，Sora目前尚未向公眾開放，也沒有具體的時間表。OpenAI正在收集用户反饋的階段，希望進一步聊天人們如何使用Sora，有哪些安全工作要做。

既然用不了，那麼探究一下，Sora是如何實現的。

Sora團隊説：Sora是一個視頻生成模型，其工作原理是分析大量視頻數據並學會生成視頻。具體工作方法融合了擴散模型（如DALL-E）和大型語言模型（如GPT系列）的技術。架構上Sora類似於介於兩者之間，訓練方式類似於DALL-E，但在結構上更像GPT。

結構上更像GPT這一點在Sora剛出現的時候就有不少人分析過，這也算Sora的一大技術特點。

接下來，是同樣讓人好奇的，Sora的訓練數據到底來自於哪裏？

在官方發佈的Sora生成視頻中，無論是咖啡杯中的海盜船，還是東京街頭行走的女性，都在表示Sora似乎理解了許多世界的物理規律。

之前不少民間説法討論，Sora極有可能在數據集中添加了用UE5生成的文本、視頻當作合成數據。

面對這樣的問題，Sora成員Tim Brooks沒有明確回應，打了一個太極，表示不方便説得太細，但是他透露，大體上使用的是公開數據和OpenAI被授權使用的數據，並分享了一個“技術創新”。

以往，不論是圖像還是視頻生成模型，通常會以非常固定的尺寸進行訓練，比如只有一個分辨率的視頻。

在Sora的訓練中，他們將各種各樣的圖片和視頻，不管是高寬比、長短、高清還是低清，都分割成了一小塊一小塊。研究人員可以根據輸入視頻的大小，訓練模型認識不同數量的小塊，這也讓Sora能更靈活地學習各種數據，並生成出不同分辨率和尺寸的內容。

這一技術在Sora技術文檔裏也有提過，就是所謂的patch。

大語言模型建模時把文本拆成了以token為最小單位，而視頻大模型中的token就是patch。

這一技術並不是OpenAI創造的，當OpenAI宣佈使用了該技術時還引起了討論，為什麼OpenAI能就能通過別人的技術造出好的AI產品出來。

主持又問到：你覺得Sora擅長做什麼？哪些方面還有所欠缺？比如我看到有個視頻裏一隻手竟然長了六個手指。

Sora團隊先揚後抑的表示到，Sora擅長寫實類視頻，並且可以生成1分鐘時長的視頻，很強。但仍然存在一些問題，比如手部細節（所有AI的噩夢）攝像機軌跡、物理現象變化等。

除此之外，Sora團隊還介紹了一些其他酷炫的功能，比如通過除prompt之外，用視頻合成的方式生成視頻。這實現了在完全不同主題和場景構成的視頻之間無縫過渡。

在OpenAI的Tiktok上就有無人機變成蝴蝶在鬥獸場轉化的珊瑚礁中飛翔的視頻。

無論在技術還是體驗上，都與原先的視頻生成模型完全不同。Aditya Ramesh更是表示，他們做的事情，就是先模擬自然，再超越自然！

目前為止，OpenAI在Tiktok上的AI生成視頻都使用了配音，而不是AI無縫生成聲音。Sora團隊表示，AI聲音暫時不是他們考慮的事情，當務之急還是在於視頻生成，讓它實現更長的時間，更好的畫質和頻率。

但不知道隨着Pika Sound Effects功能的發佈，Sora加上聲音是否指日可待。

被主持人問到，Sora下一步發展方向時。Sora成員Tim Brooks表示，在真正發佈之前，Sora還有兩方面的工作要完成：

首先是獲得更多用户的反饋，瞭解Sora如何給人們帶來價值。比如有用户希望對生成的視頻有更多精細、直接的控制，而不單單是prompts。

另一方面，Sora安全工作需要加強，OpenAI會全面考慮可能帶來的各種影響。目前，正在訓練應用於視頻的溯源分類器，實現識別視頻是否由AI生成，並且為每個Sora生成的視頻都打上了水印。

此外，Sora團隊表示，AI生成視頻也帶來了許多機遇，它可以大幅降低從創意到成片的成本，一個人拍一部電影完全有可能實現。

更令他們激動的是，隨着AI新工具的出現，會有人創造出全新的東西，不斷推進創造力的邊界，將不可能變成可能。

但打住，這只是科學家們美好的幻想。畢竟對於普通人來説，離真正使用上Sora都要等上挺長一段時間。

而且，Sora成員透露。AI通過從視頻數據中學習，將不僅僅在視頻創作方面發揮作用。像GPT這樣的模型，雖然很聰明，但如果它們無法像我們一樣“看到”這個世界，那麼它們就會缺失一些信息。類似Sora的模型正在解決這一問題。

這是證實AGI要來了嗎？

最後主持人問了一個有意思的問題，Sora生成一個視頻需要多長時間？

“取決於各種情況，但你可以離開，去喝杯咖啡，然後回來它還在處理中，反正就是很久。”

以上就是Sora團隊的採訪內容，簡單總結一下就是：Sora很厲害，可以看到世界，正因如此，我們還不能讓普通人很快就用到，還有很多安全工作要做。

Umm，沒活可以咬打火機，沒必要硬上的。

新硅NewGeek