Sora出手後,它的同行們都咋樣了?_風聞
差评-差评官方账号-55分钟前
本文原創於微信公眾號:差評 作者:世超
距離 OpenAI 亮出 Sora 這張王牌,已經快一個月了。
東西麼,是一直沒大規模開放使用,但熱度,卻從來不缺。
反正光是靠着在 TikTok 上更新 Sora 的視頻, OpenAI 的官方賬號就已經漲了數十萬粉。
像什麼搞房屋設計。

外星人在紐約化身 gai 溜子。

博物館一鏡到底。

還有一男一女在鐵磁流體餐廳裏賽博約會。

看看這絲滑程度,相比之下,原本那些被吹上天的 “AI 視頻老網紅們 ” ,多少有點汗流浹背了。
有網友鋭評:xx 剛出來的時候很感動,現在怎麼不敢動了?

其實吧, Sora 的那些友商們,並沒大夥兒想得這麼慫包,他們的更新頻率好像還更快了。
世超甚至覺得,經過 Sora 這麼一番轟炸, AI 視頻生成的戰場,才真正熱了起來。
先是 Stability AI 帶頭髮起衝鋒,把 Stable Video 拿出來公測,接着包括 Pika 、谷歌還有阿里在內的好幾家公司,也都坐不住了。

咱也先講講劍走偏鋒的兩位,阿里 EMO 和 Pika。
他們沒選擇和 Sora 硬剛,而主打對口型,基本等於明牌暗示大家: “ 你們以後用 Sora 生成的視頻,可以用我來配音對口型噢 ~~ 。
就拿 EMO 為例,上傳一張照片和一段音頻,就能讓照片裏的人開口唱歌、説話。像什麼小李子唱 Rap ,還有蒙娜麗莎開口説話都不在話下。
看看這個 Sora 皮衣女士,一開口就是樂壇老炮兒了。

另外,跟 EMO 發佈差不多時間,國內的 Pika 也小小更新了一波。

新上了個Lip Sync 功能,説白了就是給視頻配音對口型。
現在分幣不花就能用,但估計太多人把服務器給幹崩了,世超每次都卡在了最後一步。。。
但同樣都是對口型, EMO 的效果明顯要比 Pika 強不少。Pika 的口型雖然是對上了,但根據創作者 @ 數字生命卡茲克的測試,説話的時候嘴還是沒法子避免亂動的毛病。

尋找配音、對口型這種 AI 視頻生成領域的小切口,確實是一種思路。
同樣,為了和 Sora 打出差異化,以色列有家公司,就在內測一個叫做 LTX Studio 的 AI 電影製作平台。
而他的思路則是:大而全。

根據官方的説法,它能生成超過 25 秒的視頻,但最重要的,它把視頻生成、編輯、旁白配音一條龍全給包了。
就比如生成個畫面你不是很滿意,那你可以切個機位或者換個光線,或者把畫面裏的東西給換掉。
特別是,官方聲稱能保證角色的一致性。
以往的文生視頻,保不齊上一幀還是吳彥祖,下一幀可能就變成宋小寶了。
如果 LTX Studio 真能把角色一致性給解決,那世超是真 respect 。
而谷歌就更誇張了,號稱是搞了個世界模型 Genie ,這玩意兒能根據一張照片或者幾句簡短的描述就生成一個 2D 遊戲出來。。。

雖然畫質有點慘不忍睹,但光憑一張圖片就能整個虛擬世界出來。
果然對谷歌還是激將法更管用。
不過,上面提到的這幾個應用世超幾乎都沒法上手,唯一方便親自體驗的,只有 Stability AI 他們家藏了四個多月的 Stable Video ( 下稱 SV )。
而也和上面幾個避 Sora 鋒芒、主打各種差異化的老哥不同,Stable Video 是完完全全正面受敵。。
先給大夥兒回憶回憶,當時的 demo 是這樣的。

模型能力評估,還超過了 Runway 和 Pika 。

所以這次在 Sora 的節骨眼上發佈公測,大夥兒還挺期待 SV 能狠狠將 Sora 一軍。
但當世超上手試了試之後發現,是我不懂事了。。。
在 SV 官網,有圖像生成和文字生成兩個選擇,我直接把跟 Sora 那個火出圈的視頻提示詞餵給了 AI 。
它先是根據提示詞,生成了四張圖像讓我選。

接着,再手動把鏡頭運動的方式也設置下,等個十分鐘,就能生成一條 4 秒的視頻。

但不知道模型抽哪門子的風,背景全是亂的。

世超換了種鏡頭運動方式又試了一次,臉部、背景變形愣是一樣沒落下。。。

難道是因為提示詞太難了?
不信邪的我又換了幾組簡單的,倒是也有像樣的。


但十個裏起碼七個都翻車了,甚至還有在圖像生成就開始發癲的,我説城門樓子,他生成胯骨肘子。。。

這麼説吧,SV 給我的感覺就是能跟 Runway 和 Pika 打個平手,但 Sora ,還是算了吧。
不過測試看多了之後,世超發現 Sora 其實也並沒有大家夥兒傳得那麼不可超越。
有外媒記者在拿到內測資格淺試一波之後,專門發了篇文章吐槽, Sora 生成的視頻讓猴子長出了鸚鵡的尾巴,

還有國外 up 主,拿 Sora 生成了有六根手指頭的人。。。

一句話總結就是,Sora 對物理世界的很多東西還理解不了,而且生成速度慢得離譜。
而且經 Sora 這麼一攪合,整個 AI 視頻圈子是更加活躍了,保不齊下次誰家更新又來了波大的。
世超也覺得,搞不齊會和大語言模型圈兒一個樣, OpenAI 拋玉引玉, AI 視頻生成領域的成果大爆發就在眼前。
對了,世超最後還想問一嘴, Sora 到底什麼時候才能上手啊?
圖片、資料來源:
抖音、微博、 Stable Video 、 Pika 、 TikTok
部分圖源網絡
