清華團隊做出來的國產Sora，實測還真有點東西_風聞

知危-知危官方账号-31分钟前

2024-07-30

最近，國內的視頻 AI 們，全都扎堆上線了。

智譜的清影 AI 上線還沒幾天，國內另外一個視頻 AI 界的大神Vidu也跳出來了，不用排隊，免費就能用。

Vidu 背靠的是清華系團隊，他們早在 Sora 之前，就搶先發了一篇把擴散模型和 Transformer 模型融合在一起**（ Sora 用的也是這個思路）**的論文。

而且因為清華小分隊早發了兩個月，當年的計算機視覺頂會 CVPR 2023 還以**“ 缺乏創新 ”**的由頭，拒了 Sora 的 DiT 論文。

雖説最後， Vidu 的宣傳視頻出來得晚了些，但效果在彼時的一堆視頻 AI 裏，還是很扎眼的存在，各種視角、各種場景，好像都能應對自如。

所以這次它宣佈開放使用後，知危第一時間就上手了一波。

到底有沒有宣傳視頻裏那麼厲害，跟咱看看就知道了。

先來試試 Vidu 文字生成視頻的效果，這一回合我們拉來了體感還不錯的可靈 AI 來做對比。

第一招，我們來測測它們各自對提示詞的理解程度，看能不能把所有要素都展示出來。

提示詞：

寫實風格，鏡頭慢慢推進，在一個雨天，一對情侶坐在餐廳靠窗的位置吃飯。

Vidu 這邊在生成的時候，會貼心給一些影視方面的小百科，而且速度也挺麻溜。

這頗有電影感的畫面，雨天、情侶等要素也挺齊全，唯一的缺點沒 get 到提示詞裏的 “ 吃飯 ”

輪到老將可靈 AI 這邊，沒想到一上來就有點翻車了，照理説它應該挺擅長吃東西的畫面，但這次不知道咋了，兩個人嘴巴全都變形了，不過要素倒還挺全。

緊接着，我們又同時給可靈和 Vidu 餵了一組超現實的提示詞，考驗下視頻 AI 廠商們都愛宣傳的 “ 電影感 ”。

讓它們生成一組 “ 末日時，一名戰士破土而出 ” 的畫面。

Vidu 生成的效果是這樣的，只能説中規中矩，畫面的質感一般般，而且也沒給戰士一個露臉的機會。

反觀可靈 AI 這邊，對場景的處理則更加細膩一些，不僅畫面的質感、清晰度上去了，連走路會揚起灰塵這種細節，它都能捕捉到。

除了常規風格外， Vidu 這次還整出來一個專門的 “ 動畫風格 ”，據説效果還不錯。那接下來，我們就用這個風格來給它和可靈搭個擂台。

提示詞：

動漫電影風格，從側面拍攝，鏡頭聚焦在面部，夜晚，一個長髮女人坐在公交車靠窗的位置，眼睛望向窗外不斷變化的街景，忽明忽暗的光線打在她的臉上，畫面瀰漫着孤獨感。

Vidu 這邊確實也沒讓咱失望，這女主角真有點日漫那味了，而且咱也能透過窗户，看到外面一閃而過的景象。

這波可靈 AI 又開始掉鏈子了，提示詞裏面的 “ 動漫電影風格 ” ，它直接給忽略掉了，而且公交車雖然在往前走，但外面的街景的變化有點不太明顯。。。

既然是動漫風格，那肯定少不了測試想象力的環節，考考它們各自是如何處理現實不存在的場景的，比如 “ 小男孩突然化身大橘貓 ” 。

提示詞：

宮崎駿畫風，一個可愛的小男孩正在跑步，跑着跑着突然變身成一隻可愛的大橘貓

有一説一， Vidu 的效果確實還不錯，拋開畫質這個老毛病，整段視頻基本看不出什麼太大破綻，變身的過程也無比絲滑。

至於可靈 AI 嘛，可能類似的場景是真撞到它的槍口上了，看生成的視頻，可能它連提示詞本身都沒太理解。

而且，我們在試的時候發現，這次的 Vidu 還有市面上能用的視頻 AI 都有一個通病，那就是不能理解物理世界規律。

像是讓 Vidu 和可靈生成一段 “ 兩隻貓咪打乒乓球 ” 的視頻，那球可以説是滿天亂飛，而且看球也都不像是乒乓球的樣子。。。

有意思的是，我們還用 Vidu 官方演示裏的提示詞，原封不動地餵給了它，結果出來的視頻，看得人覺得有些詭異和不舒服，不如官方演示的效果好。

，時長00:07

不過整體來看， Vidu 的效果還算是可圈可點，最起碼在動漫，還有一些涉及到想象力的畫面中，表現得還算不錯。

除了能文生視頻外， Vidu 這波也還新增了圖生視頻的功能，我們發現，這簡直就是惡搞人士的福音。

隨便上傳一個表情包上去， Vidu 能立馬讓它動起來，看着效果也都還不錯。

而且我們還可以自己選，是讓上傳的圖片作為第一幀，還是隻參考就行了。

就比如我們上傳一張扎克伯格的圖片給 Vidu 參考，再補充點提示詞，就可以假裝小扎已經站在拳擊台上，準備迎戰馬斯克了。

只不過這人臉有臉參考不到位，就只有上半張臉像小扎。。。

上傳一張馬斯克的照片，也能提前幫他實現太空夢。。。

總之， Vidu 就跟市面上一眾能用的視頻 AI 差不多，可以生成效果好的視頻，有的視頻不仔細看，幾乎就看不出 AI 的痕跡。

但它的缺點也很明顯，不夠穩定，視頻做不長，這也是這一類 AI 面臨的通病了。像是 Vidu 免費用户只能體驗到 4s 的視頻，就算氪了每月 8 刀的金，最長也只有 8s 。

不過這也算是視頻類AI的商業化初嘗試了，畢竟訓練和推理的成本就擺在那裏，像是 Adobe 之前，買了 100 個用來訓練的視頻片段，平均一分鐘得花兩美元。

而收錢，多少也能幫前期優化、提升模型，分擔一點經濟上的壓力。。。

當然 Vidu 背後的公司生數科技，也不只把所有砝碼都壓在了視頻 AI 上。他們旗下還有專門面向 B 端的各種多模態模型，涵蓋了文字、圖片和 3D 模型等，遊戲製作、影視後期等都是未來的商業化場景。

之前他們就靠着圖片和 3D 模型，攢了好幾億的家底，而且就在上個月月初，生數科技又完成了數億元的 Pre-A 輪融資，百度也參與領投了。

總的來説，視頻 AI 領域是越來越熱鬧，甚至已經有點當初百模大戰的意味了。可以預見的是，未來這些廠商們還會在 AI 視頻長度、質量上不斷加碼。

對了，當初挑起這場 “ 戰爭 ” 的 Sora ，好像好久都沒新消息了。。。