試了阿里通義萬相AI生視頻,我覺得大廠們值得期待_風聞
知危-知危官方账号-1小时前
今天下午,在雲棲大會上,阿里雲 CTO 周靖人宣佈通義萬相全面升級,併發布全新視頻生成模型,通義萬相正式殺入AI視頻戰場。

所以,咱也就是説,隔壁的 Sora 大廚還不上菜,大家可就得吃飽咯。
這次阿里帶來的通義萬相,用上了業界領先的核心架構——Diffusion+Transformer,可以生成影視級高清視頻。
他們還和知名説唱歌手寶石 Gem 合作,用通義萬相AI 生視頻參與制作,直接給《 江雪 》整上了一個賽博國風的 MV 。
更重要的是,生成視頻功能在通義萬相官網以及通義 App 上都可以免費體驗。
如果從發佈前的一些宣傳上來看,我們能猜測到通義的主要優勢應該集中在國風上。

於是,在第一時間,我們就搞到了資格,想試試阿里的手藝。
為了看看通義萬相的功力,我們也請來了其他兩位國產視頻生成大模型產品同台競技。
我們使用了 3 個不同的提示詞,分別測試這些模型生成視頻的不同維度的能力。
提示詞 ①:日照香爐生紫煙。
模型 A 和模型 B 都只是做到了照本宣科,真給了一個太陽照香爐,生成一陣紫色煙霧。
沒能 get 到這句中國古詩句中 “ 香爐 ” 其實指的是 “ 香爐峯 ”,並不是真正的香爐。
模型 A 生成的視頻裏,紫煙的動態很絲滑,香爐也更像個香爐;而模型 B 的視頻裏,香爐成了個大盤子,生成的紫煙還出現了褪色。


而模型 C 是唯一一個理解了提示詞意境畫出了一幅中國水墨畫的,就衝這一手就得點個大大的讚了。
而且,我們仔細看了下,整體畫面基本挑不出太大毛病,甚至讓我覺得好像黃山的風景。

提示詞 ②:江南水鄉小鎮,清晨的陽光透過薄霧,照亮了石橋和白牆黑瓦,水面波光粼粼,幾隻小船停泊在岸邊。
模型 A 的視頻整體有些偏髒,雖然清晨的感覺有了,但整體灰濛濛的,給人一種霧霾很嚴重的感覺,而且由於畫質的原因,整體畫面的細節幾乎都看不清。
但你仔細湊近了瞧,就能發現橋中間有些 “ AI 特色 ” 的畸形,兩邊房屋也有些奇怪的變形。

模型 B 的視頻就很強了,整體畫面看起來很真實,它是 3 個模型裏,唯一一個做到了只出陽光卻不出太陽的,看起來就很高級,氛圍營造一下就拉滿了,整體畫面質感也是 3 個視頻裏最好的。
硬要挑毛病,畫面裏的霧氣過渡不是很自然,橋面欄杆也擠到一起,並不合常理。

模型 C 的視頻整體看下來也沒太大毛病,就是陽光更像是夕陽而非朝陽的味道了。
而且它的風格顯然和前面兩個對手不大一樣,有一種黏土動畫的感覺。
如果不是故意設置這個畫風的話,整個畫面就過於乾淨整潔,反而少了點真實感。

提示詞 ③:一位身穿淡雅漢服的女子正沿河邊款款散步,她的步伐輕盈,彷彿每一步都踏着古箏悠揚的旋律,手中搖曳着一把精美的油紙傘,上面繪有細膩的花卉圖案,色彩鮮豔而不失柔和,每一筆都透露出畫師的心思與技藝。河邊古樸的中式茶樓,這些茶樓多為木質結構,白牆灰瓦,房檐掛着一隻只大紅燈籠,雨滴滴落在河水裏振起層層漣漪,在水面上激起層層波紋,形成一幅生動的水墨畫卷。
模型 A 的視頻畫面佈局挺不錯的,人物運動狀態也很貼近現實,但一眼就能看出人物的臉整個垮掉,類似的問題也發生在了手上,而且人物直接練了手輕功水上漂。
不僅如此,在這次要素比較多、較為複雜的提示詞裏,模型 A 顯然漏掉了 “ 雨滴滴落在河水裏振起層層漣漪 ” 的畫面。

模型 B 的視頻氛圍營造得不錯,但和上一個類似,人物直接走在了水裏,手部細節也出現了畸變,甚至油紙傘都有些奇怪的變形,茶樓的造型更看着破舊不堪,完全沒有茶樓的感覺。
而且它也漏掉了提示詞中的要素,雖然有了河水漣漪,但畫面裏一滴雨都沒有。

模型 C 的視頻是唯一一個展現了 “ 雨滴滴落在河水裏振起層層漣漪 ” 的畫面,所以在整體要素上基本都齊全了,甚至連手畫的都比前兩位好。
而且,它還相當聰明,我們的提示詞裏沒有提到人物面部細節,它乾脆也就不生成了,直接來了一出手持油紙傘半遮面的效果。

到了揭曉答案的時候,上面測試裏:
模型 A 出自某短視頻大廠,它比較擅長控制運動細節;
模型 B 出自某大模型新鋭廠商,擅長把控畫面的色彩和美學,塑造足夠的氛圍感和真實感;
而模型 C 就是今天剛推出的通義萬相了,它能保證氛圍營造和動態完整性,達到目前的第一梯隊水平,在複雜提示詞的準確性和中國味兒上還能做到更強。
從我們更多沒放出的測試來看,在文生視頻這塊,通義萬相最出色的特點就是 “ 最聽話 ”,基本能很好地理解我們給到的長文本、複雜提示詞,把我們想要的關鍵要素都完整地表達出來。
也是憑藉這個能力,在使用生成過程中,我們也試用了它自帶的 “ 靈感擴寫 ” 功能。

我們發現它和其它廠商不大一樣,其他家的提示詞優化,經常會改變我們想要的畫面。
而通義萬相擴寫完成後的長提示詞,基本都能很好地遵循本意,只是加入更詳盡的描述,讓最後生成的畫面細節更豐富。
而且,通過一番測試,我們也能看出,對比其他文生視頻產品,通義萬相的確最懂中國風,比如幾次古詩畫面的生成,基本都只有它能夠很好地理解古詩詞的意境。
更有意思的是,通義萬相生成的視頻還能自動生成音頻。
像這個畫面裏,它就很應景地配上了雨滴聲。
不僅如此,通義萬相還有着同樣出色的圖生視頻功能。
雖然圖生視頻相對來説比文生視頻要簡單些,但對一致性、想象力的要求還是很高的。
就像下面這個漂浮鯨魚的例子。

通義萬相生成的視頻中,整個畫面與原圖能夠保持高度一致,而且畫面中不光鯨魚運動軌跡合理,下方人物和船隻也都有着很不錯的動態表現。
當然,我們也發現通義萬相沒能突破行業的一些通病,比如在一些運動場景下,偶爾會出現不合常理的畫面以及離譜物理效果,這也是整個 AI 視頻行業急需攻克的難題。

但總的來説,瑕不掩瑜,在我們看來,通義萬相勢必會成為本就競爭激烈的 AI 視頻戰場裏的一個強有力的競爭者。
仔細想想,雖然 7 個月過去了,Sora 依舊沒能真正問世,但行業的競爭絲毫沒有減速。
大家從時長、生成質量、生成速度等等方面不斷開卷,有當年 AlphaGo 和自己對弈,幾天就進化一個版本那味兒了。
今天之所以大家瘋狂卷 AI 視頻,知危編輯部認為,關鍵在於這個方向的餅着實夠大。
從目前來看,廣告公司、企業、媒體甚至每個人都能利用這個技術快速、廉價地製作視頻。
哪怕就是眼下,AI 視頻需要不斷調教、重複幾百次才能得到一個讓人比較滿意的畫面,但相較於真人拍攝所需要的時間、成本來説,都還是相當合算的。
根據東吳證券的測算,光是國內 AI 視頻潛在行業空間就可能達到 5800 億元人民幣以上。
就拿影視劇製作來説,2018 年,電視劇、電視動畫片平均投資成本為 7519 萬元/部、686 萬元/部;電影的製作成本( 不含宣發 )為 2300 萬元~1.7 億元/部。
而全 AI 模式下,電影、長劇、動畫片的製作成本分別為 2.5 / 9.3 / 3.7 萬元人民幣,相較於傳統模式成本降低幅度能超過 95% 。
所以業內目前普遍認為,當下正是 AI 視頻從 “ 玩具 ” 迭代升級為“生產力工具”的關鍵時刻。
而在這輪視頻生成技術競賽中,互聯網大廠很可能會是主要的引領者之一。
所以在聽到通義萬相才發佈時,我們第一反應是會不會有點晚,後來才瞭解到,原來通義萬相 AI 視頻,用的是阿里團隊全自研視覺生成大模型。
它在模型框架、訓練數據、標註方式和產品設計上,具備了業界領先的生產能力,所以也許印了那句古話,好飯不怕晚。
而且,從另一方面看,主流大廠們好像集體在文生視頻模型裏憋大招,大傢伙都不約而同地把 AI 視頻定義為 P0 項目,甚至有些直接讓 CEO 掛帥。
但至今為止,不斷衝鋒的反而是那些此前被忽視的新鋭廠商,從這個角度來看,阿里還真就是大廠裏腳步最快的。
咱們也大膽地預測一波,在這次阿里的通義萬相發佈後,一大批互聯網大廠們的 AI 視頻潮恐怕馬上就要來了。