OpenAI為我們製作了AI視頻這些片段逼真到足以讓人毛骨悚然——《華爾街日報》

Joanna Stern

2024-03-13

某天清晨醒來，你突然產生一種無法抑制的衝動，想親眼目睹一頭公牛在瓷器店裏閒逛。你的選擇：

A) 聯繫當地牲畜訓練師和附近的Crate & Barrel家居店

B) 聘請好萊塢動畫師

C) 在這個魔法AI工具裏輸入六個字：

歡迎來到AI領域的下一個"天吶"時刻——你的文字將轉化為流暢、高度逼真、細節豐富的視頻。現實世界，再會了！感謝所有美好時光。

OpenAI今年晚些時候才會公開發布其文生視頻工具Sora。但這項技術已經向我們展示：用精心設計的提示詞加上強大算力，就可能取代視頻製作中的許多人工環節。我向該公司提交了幾個自己的創意，畢竟誰不想看美人魚和她的螃蟹助手測評智能手機？或是公牛優雅地在瓷器店裏踱步？

隨後我通過視頻採訪了公司首席技術官米拉·穆拉蒂，共同解析這些視頻並探討我對該技術的擔憂。

當OpenAI上個月開始預覽這款生成式AI工具製作的視頻時，互聯網理所當然地沸騰了。其他AI視頻技術只能生成卡頓的低分辨率片段，而這些視頻簡直像是自然紀錄片或大製作電影的片段。

Sora為這個我們已經熟悉的"AI情緒循環"注入了新的強度——先是對技術能力的驚歎，緊接着是對社會影響的恐懼。穆拉蒂向我保證，OpenAI會以審慎態度發佈這個強大工具。但這並不意味着萬事大吉。

等等！這是AI製作的？

我早已被Sora生成的視頻震撼過：阿馬爾菲海岸的無人機航拍，一隻舉着自拍杆的柯基犬，還有衝浪板上的動畫水獺。我向OpenAI提出了更貼近我生活的請求：“兩位30多歲、棕色頭髮的職業女性，在光線充足的演播室裏進行新聞採訪。”

嘴唇和頭髮的動作，皮夾克上的細節——一切都顯得如此真實。穆拉蒂表示，這段20秒720p分辨率的視頻花了幾分鐘生成，目前還沒有聲音，但計劃未來會添加。

當我把同樣的提示詞輸入另一款AI視頻生成工具Runway時，出現的卻是兩個模糊、幽靈般的女性，如今她們不僅會出現在我的夢裏，也會出現在你的夢裏：

這一切是如何實現的？解釋“擴散模型”的內部原理比講述美人魚的進化史還難，但核心在於：AI模型通過分析海量視頻學習識別物體和動作。當你輸入文本提示時，它會先勾勒整個場景，再逐幀填充細節。

行業觀察者和競爭對手（包括Runway首席執行官）認為，這種卓越效果部分源於OpenAI強大的算力和訓練數據。不過，OpenAI近期正面臨版權侵權訴訟，指控其在未經授權的情況下抓取內容訓練ChatGPT。

我詢問穆拉蒂OpenAI為Sora使用了哪些訓練數據。“我們採用了公開可用數據和授權數據，“穆拉蒂告訴我。當我追問是否包括來自YouTube、Instagram和Facebook的視頻時，她表示並不清楚。穆拉蒂後來證實授權材料包含Shutterstock的內容。

AI模型對用户而言是個黑箱——我們知道輸入提示後會產生內容，但中間的步驟無從得知。因此我們永遠無法完全理解事物為何呈現特定形態。例如，美人魚的甲殼類夥伴長着像海綿寶寶朋友蟹老闆那樣的鬍子。巧合嗎？或許吧！

穆拉蒂告訴我，目前生成Sora視頻片段的成本遠高於公司圖像生成器Dall-E製作圖片。不過向公眾發佈時，系統會進行優化以降低計算需求。

糟糕！我該如何識別AI生成內容？

在現階段，你可以發現AI的明顯破綻。

在Sora生成的採訪場景中，金髮女性手上似乎長出了十根手指。“精準呈現手部動作確實非常困難，“穆拉蒂解釋道。

另一個視頻裏，我要求展示機器人從電影製片人手中搶奪攝像機的畫面。Sora的演繹是：人類製片人逐漸變形為電影製作機器人。這種身體置換效果令人不適。此外背景中黃色出租車變成了銀色轎車。穆拉蒂表示該模型"在連續性上表現不錯，但並非完美”。

那麼當這些故障消失後，我們該如何區分真實視頻與AI視頻？

視頻片段底部會出現水印。穆拉蒂表示，這些視頻將包含標識來源的元數據。OpenAI還專注於對Sora進行"紅隊測試”——安全測試人員試圖通過輸入提示詞來暴露其漏洞、偏見和其他有害結果。

“這正是我們尚未部署該系統的原因，“她説，“我們必須先解決這些問題，才能放心地廣泛推廣。”

穆拉蒂稱Sora的提示詞政策可能沿用Dall-E的規定，例如禁止生成公眾人物圖像。當我要求生成"現任美國總統的電視新聞畫面"時，OpenAI發言人表示Sora拒絕了該提示。

我嘗試輸入"士兵行走在東歐小鎮"的指令，該公司轉而選擇處理我更温和的提示。關於裸露內容，穆拉蒂表示正與藝術家合作制定"既不妨礙創作自由又能建立防護欄"的規範。

人類何去何從？

類似Sora的工具將快速發展。在這個文本提示可能取代無人機操作員或角色設計師的時代，好萊塢既憂慮又興奮——取決於你詢問的對象。

泰勒·佩裏觀看Sora演示後，宣佈暫停8億美元片場擴建計劃，認為該技術雖能節省佈景和外景成本，但也令人憂心。代表全美動畫工作者的動畫協會主席珍妮特·莫雷諾·金表示，藝術決策仍需人類參與，但"未來迷霧重重”。愛德華·薩奇與其AI視頻工作室Fable正構想AI界的網飛：輸入提示詞即可生成整季你想看的劇集。

當我詢問穆拉蒂關於Sora對視頻製作行業就業的影響時，她再次提到緩慢而謹慎的推出計劃，並表示OpenAI已提前向這些從業者開放測試權限。“我們希望電影行業人士和全球創作者都能參與指導我們進一步完善這項技術，“她説道。

如果説OpenAI是闖入瓷器店的公牛，那麼現在它或許正小心翼翼地踱步。但不可避免的是，瓷器終將被打破。

——立即訂閲《喬安娜·斯特恩的科技週報》（Tech Things With Joanna Stern）。萬物皆可科技化。專欄作家喬安娜·斯特恩將作為嚮導，分析並解答關於這個永續互聯世界的各種問題。

聯繫喬安娜·斯特恩請致信 [email protected]