試了阿里通義萬相AI生視頻，我覺得大廠們值得期待_風聞

知危-知危官方账号-1小时前

2024-09-20

今天下午，在雲棲大會上，阿里雲 CTO 周靖人宣佈通義萬相全面升級，併發布全新視頻生成模型，通義萬相正式殺入AI視頻戰場。

所以，咱也就是説，隔壁的 Sora 大廚還不上菜，大家可就得吃飽咯。

這次阿里帶來的通義萬相，用上了業界領先的核心架構——Diffusion+Transformer，可以生成影視級高清視頻。

他們還和知名説唱歌手寶石 Gem 合作，用通義萬相AI 生視頻參與制作，直接給《江雪》整上了一個賽博國風的 MV 。

更重要的是，生成視頻功能在通義萬相官網以及通義 App 上都可以免費體驗。

如果從發佈前的一些宣傳上來看，我們能猜測到通義的主要優勢應該集中在國風上。

於是，在第一時間，我們就搞到了資格，想試試阿里的手藝。

為了看看通義萬相的功力，我們也請來了其他兩位國產視頻生成大模型產品同台競技。

我們使用了 3 個不同的提示詞，分別測試這些模型生成視頻的不同維度的能力。

提示詞 ①：日照香爐生紫煙。

模型 A 和模型 B 都只是做到了照本宣科，真給了一個太陽照香爐，生成一陣紫色煙霧。

沒能 get 到這句中國古詩句中 “ 香爐 ” 其實指的是 “ 香爐峯 ”，並不是真正的香爐。

模型 A 生成的視頻裏，紫煙的動態很絲滑，香爐也更像個香爐；而模型 B 的視頻裏，香爐成了個大盤子，生成的紫煙還出現了褪色。

而模型 C 是唯一一個理解了提示詞意境畫出了一幅中國水墨畫的，就衝這一手就得點個大大的讚了。

而且，我們仔細看了下，整體畫面基本挑不出太大毛病，甚至讓我覺得好像黃山的風景。

提示詞 ②：江南水鄉小鎮，清晨的陽光透過薄霧，照亮了石橋和白牆黑瓦，水面波光粼粼，幾隻小船停泊在岸邊。

模型 A 的視頻整體有些偏髒，雖然清晨的感覺有了，但整體灰濛濛的，給人一種霧霾很嚴重的感覺，而且由於畫質的原因，整體畫面的細節幾乎都看不清。

但你仔細湊近了瞧，就能發現橋中間有些 “ AI 特色 ” 的畸形，兩邊房屋也有些奇怪的變形。

模型 B 的視頻就很強了，整體畫面看起來很真實，它是 3 個模型裏，唯一一個做到了只出陽光卻不出太陽的，看起來就很高級，氛圍營造一下就拉滿了，整體畫面質感也是 3 個視頻裏最好的。

硬要挑毛病，畫面裏的霧氣過渡不是很自然，橋面欄杆也擠到一起，並不合常理。

模型 C 的視頻整體看下來也沒太大毛病，就是陽光更像是夕陽而非朝陽的味道了。

而且它的風格顯然和前面兩個對手不大一樣，有一種黏土動畫的感覺。

如果不是故意設置這個畫風的話，整個畫面就過於乾淨整潔，反而少了點真實感。

提示詞 ③：一位身穿淡雅漢服的女子正沿河邊款款散步，她的步伐輕盈，彷彿每一步都踏着古箏悠揚的旋律，手中搖曳着一把精美的油紙傘，上面繪有細膩的花卉圖案，色彩鮮豔而不失柔和，每一筆都透露出畫師的心思與技藝。河邊古樸的中式茶樓，這些茶樓多為木質結構，白牆灰瓦，房檐掛着一隻只大紅燈籠，雨滴滴落在河水裏振起層層漣漪，在水面上激起層層波紋，形成一幅生動的水墨畫卷。

模型 A 的視頻畫面佈局挺不錯的，人物運動狀態也很貼近現實，但一眼就能看出人物的臉整個垮掉，類似的問題也發生在了手上，而且人物直接練了手輕功水上漂。

不僅如此，在這次要素比較多、較為複雜的提示詞裏，模型 A 顯然漏掉了 “ 雨滴滴落在河水裏振起層層漣漪 ” 的畫面。

模型 B 的視頻氛圍營造得不錯，但和上一個類似，人物直接走在了水裏，手部細節也出現了畸變，甚至油紙傘都有些奇怪的變形，茶樓的造型更看着破舊不堪，完全沒有茶樓的感覺。

而且它也漏掉了提示詞中的要素，雖然有了河水漣漪，但畫面裏一滴雨都沒有。

模型 C 的視頻是唯一一個展現了 “ 雨滴滴落在河水裏振起層層漣漪 ” 的畫面，所以在整體要素上基本都齊全了，甚至連手畫的都比前兩位好。

而且，它還相當聰明，我們的提示詞裏沒有提到人物面部細節，它乾脆也就不生成了，直接來了一出手持油紙傘半遮面的效果。

到了揭曉答案的時候，上面測試裏：

模型 A 出自某短視頻大廠，它比較擅長控制運動細節；

模型 B 出自某大模型新鋭廠商，擅長把控畫面的色彩和美學，塑造足夠的氛圍感和真實感；

而模型 C 就是今天剛推出的通義萬相了，它能保證氛圍營造和動態完整性，達到目前的第一梯隊水平，在複雜提示詞的準確性和中國味兒上還能做到更強。

從我們更多沒放出的測試來看，在文生視頻這塊，通義萬相最出色的特點就是 “ 最聽話 ”，基本能很好地理解我們給到的長文本、複雜提示詞，把我們想要的關鍵要素都完整地表達出來。

也是憑藉這個能力，在使用生成過程中，我們也試用了它自帶的 “ 靈感擴寫 ” 功能。

我們發現它和其它廠商不大一樣，其他家的提示詞優化，經常會改變我們想要的畫面。

而通義萬相擴寫完成後的長提示詞，基本都能很好地遵循本意，只是加入更詳盡的描述，讓最後生成的畫面細節更豐富。

而且，通過一番測試，我們也能看出，對比其他文生視頻產品，通義萬相的確最懂中國風，比如幾次古詩畫面的生成，基本都只有它能夠很好地理解古詩詞的意境。

更有意思的是，通義萬相生成的視頻還能自動生成音頻。

像這個畫面裏，它就很應景地配上了雨滴聲。

不僅如此，通義萬相還有着同樣出色的圖生視頻功能。

雖然圖生視頻相對來説比文生視頻要簡單些，但對一致性、想象力的要求還是很高的。

就像下面這個漂浮鯨魚的例子。

通義萬相生成的視頻中，整個畫面與原圖能夠保持高度一致，而且畫面中不光鯨魚運動軌跡合理，下方人物和船隻也都有着很不錯的動態表現。

當然，我們也發現通義萬相沒能突破行業的一些通病，比如在一些運動場景下，偶爾會出現不合常理的畫面以及離譜物理效果，這也是整個 AI 視頻行業急需攻克的難題。

但總的來説，瑕不掩瑜，在我們看來，通義萬相勢必會成為本就競爭激烈的 AI 視頻戰場裏的一個強有力的競爭者。

仔細想想，雖然 7 個月過去了，Sora 依舊沒能真正問世，但行業的競爭絲毫沒有減速。

大家從時長、生成質量、生成速度等等方面不斷開卷，有當年 AlphaGo 和自己對弈，幾天就進化一個版本那味兒了。

今天之所以大家瘋狂卷 AI 視頻，知危編輯部認為，關鍵在於這個方向的餅着實夠大。

從目前來看，廣告公司、企業、媒體甚至每個人都能利用這個技術快速、廉價地製作視頻。

哪怕就是眼下，AI 視頻需要不斷調教、重複幾百次才能得到一個讓人比較滿意的畫面，但相較於真人拍攝所需要的時間、成本來説，都還是相當合算的。

根據東吳證券的測算，光是國內 AI 視頻潛在行業空間就可能達到 5800 億元人民幣以上。

就拿影視劇製作來説，2018 年，電視劇、電視動畫片平均投資成本為 7519 萬元/部、686 萬元/部；電影的製作成本（不含宣發）為 2300 萬元~1.7 億元/部。

而全 AI 模式下，電影、長劇、動畫片的製作成本分別為 2.5 / 9.3 / 3.7 萬元人民幣，相較於傳統模式成本降低幅度能超過 95% 。

所以業內目前普遍認為，當下正是 AI 視頻從 “ 玩具 ” 迭代升級為“生產力工具”的關鍵時刻。

而在這輪視頻生成技術競賽中，互聯網大廠很可能會是主要的引領者之一。

所以在聽到通義萬相才發佈時，我們第一反應是會不會有點晚，後來才瞭解到，原來通義萬相 AI 視頻，用的是阿里團隊全自研視覺生成大模型。

它在模型框架、訓練數據、標註方式和產品設計上，具備了業界領先的生產能力，所以也許印了那句古話，好飯不怕晚。

而且，從另一方面看，主流大廠們好像集體在文生視頻模型裏憋大招，大傢伙都不約而同地把 AI 視頻定義為 P0 項目，甚至有些直接讓 CEO 掛帥。

但至今為止，不斷衝鋒的反而是那些此前被忽視的新鋭廠商，從這個角度來看，阿里還真就是大廠裏腳步最快的。

咱們也大膽地預測一波，在這次阿里的通義萬相發佈後，一大批互聯網大廠們的 AI 視頻潮恐怕馬上就要來了。