可靈與谷歌貼身肉搏_風聞
直面派-直面派官方账号-讲述值得讲述的真实故事,直面生活、命运和内心57分钟前

AI視頻生成賽道已經肉眼可見地“卷”出天際了。大廠背書的產品更新迭代的速度快到簡直讓人眼花繚亂。
作為“老鐵廠”快手的可靈AI最大的對手,谷歌的AI視頻生成產品Veo2本身就已經非常能打了,又在前段時間的I/O大會上再次正式上線Veo3版本。這才沒過幾天,可靈2.1版本也緊跟着推出。要知道,在短短一個月之前,快手才剛剛推出它們上一個大版本。
這回更新後的可靈2.1提供了結構化的產品選項。我們實測下來,標準版本以幾乎相同的成本完全替代了可靈1.6,而高品質版本更是能與網友頻頻喊“效果炸裂”的可靈2.0大師版不相上下。
作為目前少數能正面硬剛谷歌的頂級玩家,可靈自誕生起就自帶光環。可以説,這回性價比提升後的可靈AI,正在展現給我們一場頂級玩家間的貼身肉搏。
“直面AI”在可靈上也特意充值了一大筆靈感值,用 9 個一手測試帶你看一看可靈2.1都在哪些方面有了提升,又有哪些不足。
01
可靈2.1價格更親民,性能全面超越舊版
在實際評測可靈2.1前,我們先看看在可靈的價格體系下,每一條視頻生成的價格有多高:可靈大師版的一條5秒視頻價格就是10元,10秒視頻一條就是20元。
對於用户來講,每一條視頻的成本並不低,所以性價比的需求更為強烈。

我們整理了下可靈AI更新後各個版本的用户價格,目前可靈2.1提供三種模式:
1. 標準模式
2. 高品質模式
3. 大師模式

現在的可靈AI已經有了結構化的產品價格體系:
可靈2.1標準模式的5秒和10視頻生成所需的價格幾乎與可靈1.6的高品質模式相當。
在可靈2.1高品質模式下生成的綜合視頻效果在一定程度上能夠與可靈2.0大師版相媲美。
可靈2.1大師版的定價與舊版本一致。
可以説,2.1版本下的結構化產品價格已經為用户提供了豐富的選擇。如果從性價比的角度上來看,它已經能夠完全取代舊版本了。
下面,我們通過一系列實測來看看可靈2.1的各模式與舊版本的表現對比。
(1)可靈2.1人物動態效果極佳,一致性很強:
目前可靈2.1的標準模式和高品質模式**無法文生視頻,**大師模式則沒有此限制。
我們先來看看2.1高品質模式與前幾個“滿血版本”的對比。
在實際測試中,我們發現**可靈2.1在人物動態效果上的表現極佳,領先了舊版本一定的差距,**整體畫面都保留了原圖的高一致性。
比如,我們先用一張背後頂着光輪的女子坐姿彈琴的AI圖片玩了下。這張附帶人物並具有大量光效的圖片很適合用來測試可靈AI各個版本的人物動態效果:

提示詞:
光環旋轉,光屑散落,風吹動沙子、頭髮和衣物,女子在彈動樂器,鏡頭拉遠。
可靈1.6高品質:
可靈1.6高品質模式下的整體效果其實已經非常好了,畫面真實,光屑的粒子效果明顯。但是有個很突出的缺陷:可靈1.6的語義響應能力是真的不高,女子身後的光環不僅沒有旋轉,沙子的舞動效果也沒有。

可靈2.0大師版:
可靈2.0大師模式相比1.6有了很明顯的提升,比如光輪外環的旋轉和風吹沙子的表現都更生動自然。但是,細緻入微的我發現:視頻裏雖然風在吹動沙子,拂過衣物時,衣角卻沒有變化:

可靈2.1高品質:
可靈2.1高品質模式在人物效果上的表現,確實令我有些驚訝。光輪快速旋轉的同時,光屑的粒子效果一致性很高,女子左右角的衣服也跟着舞動,畫面幾乎不存在像素扭曲、不自然邊緣等明顯的生成瑕疵:

可靈2.1在處理複雜光影和細微動作時的穩定性比較高,很少出現變形或失真的問題。
(2)多人物場景下,可靈2.1幾乎拉開了代差:
當視頻生成畫面裏涉及多個人物時,可靈2.1就與之前的版本拉開了十分明顯的差距。
比如,我給了它一段提示詞:
在一座雲霧繚繞的高山之巔,兩名武俠高手展開激烈對決。一人身穿白色長袍,手持長劍,劍光如虹;另一人身着黑色斗篷,使用雙刀,招式迅猛。背景是連綿的青翠山脈,山巔的巨石被劍氣劈裂,碎石飛濺。鏡頭快速切換,展現近身格鬥的細節,隨後拉遠,俯瞰雲海中的戰鬥場景。畫面風格:寫實、武俠電影風、動態運鏡
可靈1.6高品質:
很明顯,可靈1.6高品質模式下,涉及多個人物和景色時,在人物細節、動作協調、場景融合以及動態運鏡上的表現就顯得非常差了。畫面的AI感很重,兩位俠客的刀劍都出現了劇烈的形變。

可靈2.0大師:
相比於1.6高品質模式,2.0大師的視覺效果好了一點,但好的不多。當攝像機鏡頭拉開後,人物的形變還是非常明顯,看起來完全不像在真的打架。武打動作雖然有一定連貫性,但招式之間的銜接不夠自然:

可靈2.1大師:
可靈2.1大師的進步很明顯,人物形象鮮明,細節豐富,臉部表情真實生動,武器未出現形變。但是,戰鬥真實感仍然説不上太高,對決的動態與節奏感還是有些不足:

(3)非人物場景下,各種模式間的差距並不明顯:
可靈2.1在多人物場景下的表現確實很好,尤其是在動作協調、表情細節和羣體交互的真實感上,相較2.0和1.6有很大的提升。但是,**在非人物場景中,可靈2.1與前代模型的差異並不那麼明顯,**尤其是在光效處理、環境動態和畫面穩定性的表現上。
比如,下面這張在霓虹閃爍的摩天大樓間的飛行器的場景:

提示詞:
從高空俯瞰這座城市,飛行器在霓虹閃爍的摩天大樓中快速穿梭,鏡頭跟隨
可靈1.6高品質:
可靈1.6高品質模式下,畫面的視覺效果和一致性都比較好,但是有一點:畫面裏並沒有出現飛行器快速穿梭,鏡頭跟隨的場景:

可靈2.0大師版:
可靈2.0大師版翻車了,幾架飛行器在霓虹閃爍的摩天大樓中直接融合成了一塊:

可靈2.1標準:
可靈2.1標準模式下的表現比較好,與提示詞的一致性很高,畫面中完全出現了提示詞中的各種要素。但是,單從視覺色彩上來看,2.1標準模式並沒有與1.6高品質有太大差距:

可靈2.1高品質:
可靈2.1高品質的視覺呈現感覺並沒有與標準模式以及1.6有太大區別,反而攝像機跟隨顯起來比較怪:

02
可靈 vs Veo2/3
谷歌的Veo2在AI視頻生成賽道里一直都是可靈AI系列的最大對手之一。自從Veo2推出以來,由於畫面細節、動態流暢性和內容創意方面表現非常突出,谷歌在這一領域成了頂級玩家。這回上線的Veo3的真實性又上了一個大台階。
下面我們就用一系列實測案例,來看看可靈2.1的大師版與Veo2/3間的差距有沒有被彌補上,或者説彌補上多少了。
(1)動漫少女滑冰
X平台的一位博主 ShidarezakuraSa 實際測試了Veo2/3兩個版本下動漫少女滑冰的視頻效果,我們也同樣用可靈2.1大師跑了下測試。
Veo2:
Veo2的視覺效果還是不錯的,整體畫面一致性比較高,沒有出現崩壞的現象。但是,動漫少女的身體並沒有呈現出任何物理效果的變化;鏡頭的移動跟隨也非常一般:

Veo3:
Veo3相對於舊版本的升級非常大,動作捕捉、物理模擬和動態視角的變化都非常棒,真實度上升了不止一個Level:

可靈2.1大師:
可靈2.1大師呈現的效果相比於Veo3還是有一定差距的,畫面出現了很多形變。同時,我也注意到動漫少女身上的物理模擬效果非常真實,可靈2.1在人物運動狀態方面的塑造上確實非常強:

(2)比格犬與人類下棋
另有一位博主drjmetz用一段提示詞測試了下Veo2/3的視覺效果:
一隻比格犬幼犬在公園的遊戲中與人類下棋
在這個場景下,可靈2.1的表現我覺得甚至要比Veo3還要強。
Veo2:
Veo2模型下,狗狗的皮毛紋理並不清晰,有非常重的AI感。畫面中的兩位角色在觸碰國際象棋棋子時的動態模擬也比較差:

Veo3:
Veo3的表現就提升了非常多,人物臉部的真實感很強。同樣地,棋子在被接觸時仍然會發生形變,這就是目前AI視頻生成模型還無法解決的難題:

可靈2.1大師:
可靈2.1大師模式下的狗狗的皮毛真實感很高,在處理複雜紋理時表現優異,在細節渲染和光影處理上更接近真實。但是,2.1並沒有展現下棋的過程,避開了複雜的物理模擬,這也體現了2.1在語義響應上仍有上升空間:

(3)一隻長頸鹿在紐約騎自行車
在動態視覺效果方面,可靈2.1與Veo3的差距還是比較明顯的。比如下面這個「一隻長頸鹿在紐約騎電動自行車」的case。
X博主nmatares提供了Veo3模型的測試結果,我們也同樣用可靈2.1大師跑了一遍。
提示詞:
一隻長頸鹿在紐約瘋狂騎電動車,畫面充滿動感,鏡頭快速切換,展現長頸鹿靈巧地避開行人和車輛
Veo3:
Veo3下,畫面主體的運用效果一致性比較高,整體效果非常流暢,動態效果上展現了極高的水準。在畫面主體的運動表現上,Veo3對長頸鹿騎行姿態的刻畫很自然,動感氛圍也比較匹配:

可靈2.1大師:
相比之下,同樣的提示詞在可靈2.1大師版下的表現則顯得差了一些。在動態效果的處理上,可靈2.1的畫面流暢度明顯不足,長頸鹿的騎行動作顯得有些怪異,街邊人物的形變很大:

帶大家欣賞可靈2.1高品質模式下更多的Case
我們還用剩下的靈感值多跑了幾個能很直觀展現可靈2.1高品質的視頻case,讓大家看個夠。
(1)童話風格女孩
提示詞:
在一個童話風格的小鎮,鵝卵石街道上掛滿彩燈,居民穿着中世紀風格的華麗服裝,參加盛大的節日慶典。孩子們手持氣球,圍着噴泉嬉戲;樂隊演奏歡快的絃樂,煙花在夜空中綻放。鏡頭從小鎮廣場的熱鬧場景推進,聚焦於一位小女孩點亮漂浮燈籠,燈籠緩緩升空,與星空融為一體。畫面風格:温馨、夢幻、色彩豐富,動畫電影風格。

(2)魔法師
提示詞:
在一片古老的魔法森林中,參天巨樹上纏繞着發光的藤蔓,地面覆蓋着熒光蘑菇。精靈祭司站在石制祭壇前,手持水晶法杖,召喚出漂浮的藍色魔法符文。周圍的空氣中閃爍着微光粒子,遠處的獨角獸在溪流邊飲水。鏡頭環繞祭壇,展現儀式的高潮:一束光柱從天而降,點亮整個森林。畫面風格:夢幻、温暖色調、輕霧瀰漫,電影感,流暢運鏡。

(3)機械生物
提示詞:
在一片紅色沙漠的外星球上,巨大的機械生物在沙丘間緩慢移動,它們的身體由金屬和有機物混合構成,散發着幽幽藍光。天空佈滿雙月,遠處的火山噴發出紫色煙霧。一支探險隊駕駛懸浮越野車靠近,揚起漫天沙塵。鏡頭從地面視角逐漸拉高,展現機械生物的全貌和壯麗的異星地貌。畫面風格:科幻、荒涼、超現實,史詩感。

03
本土誕生的卷王
綜合測試下來,我們發現**可靈2.1在動態人物的一致性方面的提升非常大,尤其是多人物場景下的真實細節還原。**可以説,可靈2.1已經能夠憑藉性價比徹底替換掉前代版本。但是,在極複雜場景、動態運鏡、物理模擬等方面,可靈2.1距離谷歌的Veo3仍有一段追趕空間。
從“老鐵廠”快手如此密集的迭代節奏不難看出,AI視頻生成的進化已進入白熱化階段。同時,可靈的商業化之路,已經被市場實實在在地驗證了:從2024年6月發佈以來,可靈AI已經快速迭代了20多個版本,全球用户規模超過2000萬。今年1季度,可靈AI實現營業收入超過1.5億元。
我們已經看到了包括可靈2.0、2.1等各個版本的誕生,快手作為可靈的母公司,正全面擁抱AI技術,用AI當作全新的商業引擎。
可靈這款產品從誕生之日起,到走通商業化只用了短短半年時間。現在,可靈產品迭代速度明顯加快,結構化的產品選項不斷清晰。我們可以預見的是,“老鐵廠”和極大規模的用户羣體加持下的可靈AI,將會是谷歌Veo 3最強勁且最不能忽視的本土對手之一。
【直面派】原文 -- 講述值得講述的真實故事,直面生活、命運和內心