生成式人工智能的下一個領域是視頻 - 彭博社

Rachel Metz

2023-03-20

Runway（此處加速）的AI生成視頻示例。

來源：Runway AI Inc.

人工智能在靜態圖像方面取得了顯著進展。幾個月來，像Dall-E和Stable Diffusion這樣的服務一直在創作美麗、引人注目，有時令人不安的圖片。現在，一家名為Runway AI Inc.的初創公司正在邁出下一步：AI生成視頻。

週一，總部位於紐約的Runway宣佈推出其Gen 2系統，該系統可以根據用户提示的幾個詞生成短視頻片段。用户可以輸入他們想要看到的描述，例如：“一隻在雨中行走的貓”，它將生成一個大約3秒的視頻片段，展示這一場景，或者類似的場景。另外，用户還可以上傳一張圖像作為系統的參考點以及提示。

該產品並非所有人都可以使用。Runway是一家提供基於AI的電影和編輯工具的公司，宣佈通過等待列表推出了其Gen 2 AI系統；人們可以在公司計劃每週向其中添加更多用户的私人Discord頻道上註冊以獲得訪問權限。

這一有限的推出代表了實驗室之外最引人注目的文本到視頻生成實例。Alphabet Inc.的Google和Meta Platforms Inc.去年展示了他們自己的文本到視頻努力——展示了短視頻片段，主題包括一隻洗碗的泰迪熊和湖上的帆船——但兩家公司都沒有宣佈計劃將這項工作推向研究階段之外。

Runway自2018年以來一直致力於AI工具，並在去年晚些時候籌集了5000萬美元。這家初創公司幫助創建了穩定擴散的原始版本，這是一種文本到圖像的AI模型，後來被Stability AI公司推廣和進一步開發。

在上週的獨家現場演示中，Runway聯合創始人兼首席執行官Cris Valenzuela，這位記者對Gen 2進行了測試，提出了“沙漠景觀的無人機鏡頭”這個提示。幾分鐘內，Gen 2生成了一個僅幾秒鐘長的視頻，有點失真，但無可否認地看起來像是在沙漠景觀上空拍攝的無人機鏡頭。視頻畫面右上角有藍天和雲彩，太陽昇起（或落下，也許）在視頻畫面的右下角，它的光線照亮了下方的棕色沙丘。

一幅來自AI生成視頻樣本的靜止圖像。來源：Runway AI Inc.Runway從自己的提示中生成的幾個其他視頻展示了系統當前的優勢和劣勢：一個眼球的特寫圖像看起來清晰而且相當類似人類，而一個徒步穿過叢林的遠景顯示出它可能仍然存在生成逼真的腿部和行走動作的問題。Valenzuela表示，該模型仍然沒有完全“弄清楚”如何準確地描繪物體移動。

“你可以生成一場汽車追逐戲，但有時汽車可能會飛走，”他説。

在像DALL-E或Stable Diffusion這樣的文本到圖像模型中，詳細的提示可能會導致更詳細的圖像，但Valenzuela表示，對於Gen 2來説，簡單就是更好。他認為Gen 2是為藝術家、設計師和電影製作人提供另一種工具的方式，可以幫助他們的創作過程，並使這些工具比過去更具價格優勢和易獲取性。

該產品是基於一個名為Gen 1的現有AI模型構建的，Runway在二月份開始在Discord上私下測試。Valenzuela表示，目前已經有成千上萬的用户在使用。該AI模型要求用户上傳視頻作為輸入源，它將使用這個視頻（以及用户的指導，比如文本提示或靜態照片）來生成一個新的、無聲的3秒視頻。例如，你可以上傳一張貓追逐玩具的圖片，同時附上文本“可愛的鈎織風格”，Gen 1會生成一個鈎織貓追逐玩具的視頻。

使用Gen 2 AI模型創建的視頻也是無聲的，但Valenzuela表示，公司正在研究音頻生成，希望最終創建一個可以生成圖像和聲音的系統。

Gen 2的推出展示了初創公司在所謂的生成式AI領域前進的速度和猛烈程度，這些系統接受用户輸入並生成新內容，如文本或圖像。其中幾個系統，比如Stable Diffusion，以及OpenAI公司的圖像生成Dall-E和聊天機器人ChatGPT，最近已經變得公開可用並且廣受歡迎。與此同時，它們的普及也引發了法律和倫理方面的擔憂。

漢尼·法裏德（Hany Farid）是一位數字取證專家，也是加州大學伯克利分校的教授，他看了一些由Gen 2生成的視頻後稱其“超酷”，但他補充説，使用這種技術生成的視頻被濫用只是時間問題。

法裏德説：“人們會試圖利用這個做壞事。”

Runway正在使用人工智能和人工審核相結合的方法，防止用户生成包含色情、暴力內容或侵犯版權的Gen 2視頻，儘管這些方法並非百分之百可靠。

與人工智能行業的其他領域一樣，這項技術正在迅速發展。儘管Gen 2的圖像質量目前有點模糊和抖動，使得很容易察覺到由Gen 2生成的視頻與眾不同，但瓦倫祖埃拉（Valenzuela）預計它會迅速改善。

他説：“現在還很早。這個模型會隨着時間變得更好。”