Sora上線將引發AI視頻革命？專家：未與其他競品拉開代際差距，需防範被濫用風險

作者：刘扬武彦

2024-12-12

【環球時報記者劉揚環球時報特約記者武彥】美國人工智能（AI）公司OpenAI近日宣佈正式上線“文生視頻”大模型Sora，立即引起廣泛關注，蜂擁而來的大量用户一度導致其官網癱瘓。今年2月Sora首次公開時，不僅展示了從文本到視頻的驚人轉化能力，更宣告AI不再只是字符與圖片世界的幻想，而是能夠真實再現或創造出我們所見的世界。時隔10個月，Sora的性能到底有多大程度的提升？這樣一場“視頻工具革命”將會帶來哪些深刻影響及潛在風險？對此，《環球時報》記者11日採訪了多位人工智能專家。

核心優勢是龐大用户基數

據介紹，這次上線的新版本Sora Turbo能夠通過文本直接生成最多20秒或最高分辨率1080P的視頻，成為目前全球生成時長最長的視頻模型之一。該模型支持三種模式：“文本到視頻”“文本+圖像到視頻”和“文本+視頻到視頻”，既可以讓用户僅通過輸入文本描述就生成完整的視頻內容，也可以結合文本和指定的圖像/視頻，從而更精確地理解並展現創作者的創意意圖，製作出更符合視覺預期的視頻內容。不過OpenAI的技術團隊也承認Sora存在不足，“如果認為Sora只需點擊按鈕就能生成一部故事片，那麼你可能抱有錯誤的期望”。社交媒體流傳的相關測試視頻顯示，Sora生成的視頻在遵循物理規律方面存在明顯不足，經常出現物體相互穿過、憑空出現和消失的情況。

清華大學新聞學院、人工智能學院教授瀋陽11日對《環球時報》記者表示，Sora是目前AI視頻大模型當中的佼佼者，但並未與其他競品拉開代際之上的差距。尤其是可靈AI、Runway兩個頭部大模型，經過小半年的迭代以及與用户之間的磨合，已經衍生出了一系列的護城河功能，並且模型實現了不斷進化，而姍姍來遲的Sora目前表現出的優勢還不夠明顯，尤其是對於確定性創意生成的“圖生視頻”能力還很薄弱。Sora本次發佈所帶來的故事板、畫面元素增刪以及風格化預設等功能都不足以成為顛覆其他競品的“殺手鐧”。

不過瀋陽認為，Sora的核心產品優勢是背靠OpenAI龐大的用户基數，以ChatGPT的用户數量，將會有效地對Sora進行導流，且通過GPT提示詞賦能過的Sora在畫面呈現質量上也應高於其他視頻大模型。“在12月10日正式發佈後，Sora服務器一直處於擠爆狀態，這便説明了OpenAI旗下產品的號召力，Sora很可能在幾個月的時間內在用户數量上反超其餘兩大模型。”

或將打破傳統影視製作技術壁壘

北京郵電大學人機交互與認知工程實驗室主任劉偉11日在接受《環球時報》記者採訪時表示，此次Sora正式發佈不能看作是一場視頻工具的革命，因為它沒有Sora首次亮相時那樣震撼全世界。我們應該高度關注並跟蹤包括Sora在內的“文生視頻”大模型的最新發展趨勢以及技術進步，並通過了解國際上的技術發展新動向擇其善者而從之，擇其不善者而改之。

談到對幾款主流AI視頻大模型的使用體驗，瀋陽介紹稱，“我們團隊在8月AI視頻大模型賽道百花齊放之際，就對包括可靈、即夢、Vidu、清影、Runway、Luma在內當時主流的6款模型做過測試，在實際的工作中，我們團隊的技術人員也結合各模型相關的優勢進行了工作流的搭建與創意項目的執行。從實際效果來看，國內的視頻大模型和國外差距不大。”

瀋陽認為，相比AI文學、AI繪畫、AI音樂，現在的AI短視頻似乎是一個更加適合普通人登上時代快車的方式，這降低了通向傳媒行業的入門門檻。最早火爆出圈的可靈AI，近半年以來，湧現了復活老照片等一系列或催人淚下或讓人忍俊不禁的網絡爆款視頻。許多爆款內容的創作者都是初次接觸短視頻創作，而短短十幾秒的作品卻能取得幾百萬的播放量，這其實是在AI賦能下所帶來的“零知識啓動，高知識生產”的一種創作範式。

在談及AI視頻生成技術對影視製作、廣告和內容創作等行業的影響時，瀋陽表示，現在看到的不僅是技術進步，更是一場行業範式的轉變。Sora等模型的出現意味着傳統的影視製作流程將被重塑。許多電影人已經將AI作為有效的視覺化腳本呈現工具，甚至在今年3月6日，全球首部完全由AI製作的90分鐘長篇電影《終結者2重製版》已經在好萊塢上映。而AI賦能廣告短片、文旅短片、公益宣傳片的案例不勝枚舉。

瀋陽認為，Sora等一系列視頻大模型的發佈標誌着AI視頻生成技術在影視製作、廣告和內容創作領域的應用已經走向了更深階段。過去一年的發展表明，人工智能不再僅僅停留在理論或實驗階段，而是已經深刻影響到創作流程的各個環節。總體來看，過去一年AI視頻生成技術的應用已經釋放出實質性的價值，尤其是在提高創作效率和靈活性方面。人工智能正在成為創意策劃、內容製作和後期剪輯等環節的得力助手，打破了傳統影視製作的技術壁壘和時間限制。隨着技術的持續發展，AI將在內容創作中扮演越來越重要的角色，而這種轉型也將引領整個行業邁向更加高效、個性化和智能化的未來。

深度偽造畫面帶來隱患

劉偉表示，Sora等文生視頻大模型的發佈，對於普通人來説，一方面降低了人們自主生成創意視頻的門檻，提供了依託個人優秀創意製作出爆款視頻的高質量工具。另一方面也增加了普通人辨偽的成本，特別是在電信詐騙等場景下，深度偽造的畫面以及視頻很可能會增加普通人的風險。

劉偉認為，我們要加大對文生視頻大模型發展過程中伴生的深偽技術在社會各個場景下應用的關注。一方面要跟蹤技術發展，另一方面要加強治理，特別是通過技術手段、法律法規限制相關不良內容的傳播與濫用，以保證智能向善。他認為，只要Sora等大模型使用的是多內存神經網絡系統，就存在出現機器幻覺的可能，因此有經驗的專業人員可以找到其中不符合常識和與現實世界不相符的漏洞。劉偉強調，還要關注先進的文生視頻大模型等技術被濫用於認知戰的情況，這種在國外社交網絡上“帶節奏”的情況可能會對國家安全構成威脅，這種傾向需要高度關注。