清華團隊做出來的國產Sora,實測還真有點東西_風聞
知危-知危官方账号-31分钟前
最近,國內的視頻 AI 們,全都扎堆上線了。
智譜的清影 AI 上線還沒幾天,國內另外一個視頻 AI 界的大神Vidu也跳出來了,不用排隊,免費就能用。
Vidu 背靠的是清華系團隊,他們早在 Sora 之前,就搶先發了一篇把擴散模型和 Transformer 模型融合在一起**( Sora 用的也是這個思路 )**的論文。
而且因為清華小分隊早發了兩個月,當年的計算機視覺頂會 CVPR 2023 還以**“ 缺乏創新 ”**的由頭,拒了 Sora 的 DiT 論文。
雖説最後, Vidu 的宣傳視頻出來得晚了些,但效果在彼時的一堆視頻 AI 裏,還是很扎眼的存在,各種視角、各種場景,好像都能應對自如。

所以這次它宣佈開放使用後,知危第一時間就上手了一波。
到底有沒有宣傳視頻裏那麼厲害,跟咱看看就知道了。
先來試試 Vidu 文字生成視頻的效果,這一回合我們拉來了體感還不錯的可靈 AI 來做對比。
第一招,我們來測測它們各自對提示詞的理解程度,看能不能把所有要素都展示出來。
提示詞:
寫實風格,鏡頭慢慢推進,在一個雨天,一對情侶坐在餐廳靠窗的位置吃飯。
Vidu 這邊在生成的時候,會貼心給一些影視方面的小百科,而且速度也挺麻溜。

這頗有電影感的畫面,雨天、情侶等要素也挺齊全,唯一的缺點沒 get 到提示詞裏的 “ 吃飯 ”

輪到老將可靈 AI 這邊,沒想到一上來就有點翻車了,照理説它應該挺擅長吃東西的畫面,但這次不知道咋了,兩個人嘴巴全都變形了,不過要素倒還挺全。

緊接着,我們又同時給可靈和 Vidu 餵了一組超現實的提示詞,考驗下視頻 AI 廠商們都愛宣傳的 “ 電影感 ”。
讓它們生成一組 “ 末日時,一名戰士破土而出 ” 的畫面。
Vidu 生成的效果是這樣的,只能説中規中矩,畫面的質感一般般,而且也沒給戰士一個露臉的機會。

反觀可靈 AI 這邊,對場景的處理則更加細膩一些,不僅畫面的質感、清晰度上去了,連走路會揚起灰塵這種細節,它都能捕捉到。

除了常規風格外, Vidu 這次還整出來一個專門的 “ 動畫風格 ”,據説效果還不錯。那接下來,我們就用這個風格來給它和可靈搭個擂台。

提示詞:
動漫電影風格,從側面拍攝,鏡頭聚焦在面部,夜晚,一個長髮女人坐在公交車靠窗的位置,眼睛望向窗外不斷變化的街景,忽明忽暗的光線打在她的臉上,畫面瀰漫着孤獨感 。
Vidu 這邊確實也沒讓咱失望,這女主角真有點日漫那味了,而且咱也能透過窗户,看到外面一閃而過的景象。

這波可靈 AI 又開始掉鏈子了,提示詞裏面的 “ 動漫電影風格 ” ,它直接給忽略掉了,而且公交車雖然在往前走,但外面的街景的變化有點不太明顯。。。

既然是動漫風格,那肯定少不了測試想象力的環節,考考它們各自是如何處理現實不存在的場景的,比如 “ 小男孩突然化身大橘貓 ” 。
提示詞:
宮崎駿畫風,一個可愛的小男孩正在跑步,跑着跑着突然變身成一隻可愛的大橘貓
有一説一, Vidu 的效果確實還不錯,拋開畫質這個老毛病,整段視頻基本看不出什麼太大破綻,變身的過程也無比絲滑。
至於可靈 AI 嘛,可能類似的場景是真撞到它的槍口上了,看生成的視頻,可能它連提示詞本身都沒太理解。

而且,我們在試的時候發現,這次的 Vidu 還有市面上能用的視頻 AI 都有一個通病,那就是不能理解物理世界規律。
像是讓 Vidu 和可靈生成一段 “ 兩隻貓咪打乒乓球 ” 的視頻,那球可以説是滿天亂飛,而且看球也都不像是乒乓球的樣子。。。


有意思的是,我們還用 Vidu 官方演示裏的提示詞,原封不動地餵給了它,結果出來的視頻,看得人覺得有些詭異和不舒服,不如官方演示的效果好。
,時長00:07
不過整體來看, Vidu 的效果還算是可圈可點,最起碼在動漫,還有一些涉及到想象力的畫面中,表現得還算不錯。
除了能文生視頻外, Vidu 這波也還新增了圖生視頻的功能,我們發現,這簡直就是惡搞人士的福音。
隨便上傳一個表情包上去, Vidu 能立馬讓它動起來,看着效果也都還不錯。

而且我們還可以自己選,是讓上傳的圖片作為第一幀,還是隻參考就行了。

就比如我們上傳一張扎克伯格的圖片給 Vidu 參考,再補充點提示詞,就可以假裝小扎已經站在拳擊台上,準備迎戰馬斯克了。
只不過這人臉有臉參考不到位,就只有上半張臉像小扎。。。

上傳一張馬斯克的照片,也能提前幫他實現太空夢。。。

總之, Vidu 就跟市面上一眾能用的視頻 AI 差不多,可以生成效果好的視頻,有的視頻不仔細看,幾乎就看不出 AI 的痕跡。
但它的缺點也很明顯,不夠穩定,視頻做不長,這也是這一類 AI 面臨的通病了。像是 Vidu 免費用户只能體驗到 4s 的視頻,就算氪了每月 8 刀的金,最長也只有 8s 。

不過這也算是視頻類AI的商業化初嘗試了,畢竟訓練和推理的成本就擺在那裏,像是 Adobe 之前,買了 100 個用來訓練的視頻片段,平均一分鐘得花兩美元。
而收錢,多少也能幫前期優化、提升模型,分擔一點經濟上的壓力。。。
當然 Vidu 背後的公司生數科技,也不只把所有砝碼都壓在了視頻 AI 上。他們旗下還有專門面向 B 端的各種多模態模型,涵蓋了文字、圖片和 3D 模型等,遊戲製作、影視後期等都是未來的商業化場景。

之前他們就靠着圖片和 3D 模型,攢了好幾億的家底,而且就在上個月月初,生數科技又完成了數億元的 Pre-A 輪融資,百度也參與領投了。
總的來説,視頻 AI 領域是越來越熱鬧,甚至已經有點當初百模大戰的意味了。可以預見的是,未來這些廠商們還會在 AI 視頻長度、質量上不斷加碼。
對了,當初挑起這場 “ 戰爭 ” 的 Sora ,好像好久都沒新消息了。。。