親測快手“可靈”大模型:驚豔不輸Sora,但有點短_風聞
AI蓝媒汇-AI蓝媒汇官方账号-欢迎关注公众号:jizhezhan19分钟前

作者|陶然
編輯|魏曉
文生視頻賽道,迎來一份產自國內玩家驚喜:
快手「可靈」視頻生成大模型:
寒冷的北極,探險隊穿越冰雪,使用雪地摩托追逐極光
六月,可靈大模型官網上線,不但效果對標OpenAI年初發布的Sora,還一改此前各家視頻大模型以發佈案例為主、只能觀看“演示”的套路,直接開放邀請測試權限。
排隊申請測試的人數幾天時間內便迅速破萬,儘管通過審核的用户每天都在增加,但仍有超過35萬用户仍在等待中。

可靈AI申請界面
可靈大模型的火爆程度,可見一斑。
七麥數據顯示的iOS端數據,進入六月後,隨着可靈大模型在快影App的公測,應用下載量在一個月的時間內始終波動上升,峯值單日下載量超過26000,預估單月下載量超過62萬。

對於一款定位創作工具的App來説,這個數據確實可觀。近一個月,快影在攝影與錄像App榜單中始終位處於前十五位,目前已經高居第六,前五則是老幾位圖像、視頻領域的國民級App。


這種備受關注,初期或許有一部分是來自快手在大模型領域的“突然出招”,但現如今,已經體驗過的用户,包括藍媒君在內,幾乎都已經為大模型的成像效果歎服。
年初,一段文字生成一段幾乎以假亂真視頻的Sora全網爆火。業界猜測視頻模型這邊“大的要來了”。但實際情況是,OpenAI對自家這款看起來遙遙領先的模型,卻遲遲未有對外開放體驗的跡象,迫切想體驗的用户們只能一等再等。
而向來務實的快手,這回則掏出了直接能用的產品,高調宣佈:老鐵,這回大的可能真來了。
國產Sora成色幾何?
嚴格來説,快手在大模型領域給外界的印象,並非那一類聲量極高的頭部玩家。但這次發佈的文生視頻大模型可靈,卻着實驚豔了行業一把:
不管是對用户提示詞的理解,還是最終成像質量和速度,説句超預期,並不過分。
真實的案例最為直觀,先來一個白天的簡單場景:
烈日下的廣袤沙漠中,考古團隊發現了古老遺蹟的殘存,掘出了神秘古文物。
把更多的人物和更復雜的場景加進去:
在綠樹成蔭的户外咖啡館裏,顧客們坐在木桌椅上,享受着陽光和咖啡的香氣。
最後再測一下光影效果最複雜的夜景中,物體運動的效果:
城市夜幕下,高速賽車在閃爍的霓虹燈光中飛馳,追逐者們穿越繁忙的十字路口,轉彎時車尾劃過閃光的水坑。
除了鏡頭移動速度普遍偏慢之外,畫面上可靈大模型幾乎沒有出現大面積的bug。
當然,目前版本的模型在處理多人場景時,成像效果確實還不穩定:
在繁忙的城市公園裏,一羣年輕人展示着街舞,他們在音樂的節拍下與觀眾和諧互動。
以及,在處理一些比較細節的人物動作,如“踢球”這類提示詞時,對具體運動的表現力仍有提升空間,並且目前生成視頻的時長似乎被限制在了5秒:
生成一段時長為15秒的視頻,展現一位球員在足球場上奔跑,接到傳球后準備射門。
在生成第一段(時長一般為5秒)視頻過後,可靈大模型界面給用户提供了一個“延長視頻”的選項,用户可以修改或細化提示詞,在保留原視頻主體的基礎上,延長視頻的整體時長。

5秒的原視頻被延長到了10秒左右,官方稱視頻時長最多可達兩分鐘(幀率30fps)。但若要達到這個最大時長,意味用户着需要延長視頻數十次,並等待極長的時間,顯然對於用户來説,投入產出比並不理想。
不過,至少在文生視頻領域,技術層面快手顯然已迅速躋身到行業內的領先集團之中。
儘管,可供對比的玩家並不多——從文生圖模型快進到文生視頻模型,涉及到多模態領域的轉變和擴展,是很大跨度的一層台階。
因此,能達到公測水平,同時還要有足夠算力支撐公測的產品,更是少之又少。以至於突然殺入前排之後,除了OpenAI的Sora,快手一時間確實找不到太多公開產品進行貼身對壘。
突然領先,是這樣的。
有機會超越OpenAI嗎?
目前來看,仍有差距。
至少,僅看官網演示的部分——時長充足、畫面穩定,動作和光影的流暢程度完全以假亂真,Sora的模型能力對比同行,確實堪稱“降維打擊”。
包括快手在內,同行比較現實的選擇現階段仍是保持研發進度、有階段性的產出落地。
而在技術層面,可靈大模型與Sora,其實有着些許相似的設計思路。
架構選擇上,快手大模型團隊採用的方案,是類似Sora模型的DiT結構,使用Transformer替代了傳統的卷積U-Net。這一轉變增強了處理和生成能力,解決了U-Net在處理複雜任務時冗餘、感受野和定位精度的問題。
三個問題的優化,使得模型效率和性能提高、能夠捕捉到更寬廣的特徵範圍,模型對細節的識別能力也隨之增強。
而快手自研推出的3D VAE網絡,實現了時空同步壓縮,相較於Stable Diffusion所用、存在明顯的信息冗餘的2D VAE空間壓縮方案,獲得了較高的重建質量的同時在訓練性能和效果也取得了最佳平衡。
配合新設計的、能更準確地建模複雜時空運動併兼顧具運算成本的全注意力機制(3D Attention)作為時空建模模塊,有效提升了模型的建模能力。

當然,後台的模型能力是一方面,怎麼讓用户輸入的自然語言對接上大模型的能力,同樣需要做額外的建構。
為此,快手專門設計了一款能有效擴展和優化用户提示詞的語言模型,相當於在自然語言輸入和大模型生成視頻之間,再加入一道AI處理工具,將自然語言轉錄成更符合AI邏輯的字符,從而提升模型對文本指令的響應能力,讓視頻的主題更清晰、敍事更連貫。
整套設計環環相扣,大模型才能讀懂用户需求,並精準建構流暢且高質量的畫面。
結語
在文生視頻領域,快手算是跑在了行業前排——在一些同行還在聊概念的階段,直接把產品拋向市場,交給用户測試。
並且生成的視頻,也已經完全能夠觸及“可用”的範圍。
當然,提升空間也是有的,比如一些比較複雜或者小眾的動作指示處理,比如時長和運鏡自由度等等的進一步增加。
可靈大模型,從各方面看應該都只是快手AI佈局的前幾步,秀一下在快速迭代的AI視頻生成領域中,為用户需求提供解決方案能力和技術優勢。
至於文生視頻何時能作為用户內容的補充,甚至成為缺少素材時創作的主流選項,老鐵們應該也可以開始期待了。
Lanmeih/今日話題
快手可靈大模型你體驗了嗎?評價如何?