Sora未成曲調先有聲？_風聞

何鲸洛-文字可以流氓，初心不敢或忘；公众号：一笔封禅1小时前

2024-02-20

出品©一筆封禪

作者@何鯨洛

如果説2022年末。

OpenAI聊天機器人ChatGPT的面世是為AI技術張開了“嘴巴”。

那麼2024年2月16日。

OpenAI宣佈推出全新的生成式人工智能模型“Sora”，則是為AI技術打開了“眼睛”。

①Sora一出誰與爭鋒？▽

2月16日。

OpenAI宣佈推出全新的生成式人工智能模型“Sora”。

據瞭解。

通過文本指令。

Sora可以直接輸出長達60秒的視頻，並且包含高度細緻的背景、複雜的多角度鏡頭，以及富有情感的多個角色。

例如一個Prompt（大語言模型中的提示詞）的描述是：

在東京街頭。

一位時髦的女士穿梭在充滿温暖霓虹燈光和動感城市標誌的街道上。

在Sora生成的視頻裏。

黑衣紅裙女子走在霓虹街頭。

不僅動作連貫、鏡頭的移動，周遭，以及水面的反射效果都相當自然。

一眼看去。

甚至有種電影的質感。

也難怪有網友表示Sora要顛覆電影業。

更早之前。

2023年8月。

Runway將Gen-2生成視頻的最大長度從4秒提升到了18秒。

9月。

Runway又官宣Gen-2新增了導演模式，可以控制“鏡頭”的位置和移動速度。

11月。

Runway家標誌性的AI視頻生成工具Gen-2，迎來了“iPhone時刻”般的史詩級更新。

依舊是簡單一句話輸入。

但視頻效果卻可以拉到4K超逼真的高度！

此後不久。

Gen-2又新增了“Motion Slider”的功能，可以調節視頻中的動作幅度。

與此同時。

2023年11月。

美國AI初創公司Pika labs發佈了第一個產品Pika 1.0。

Pika 1.0的新功能主要有以下幾個方面：

一是用文本和圖像生成視頻，只需要輸入幾行文本或上傳圖像，就可以創建簡短、高質量的視頻；

二是編輯更改視頻，輸入相關文本，實現對背景環境、衣着道具等元素的增減或者更改；

三是切換視頻風格，例如在黑白、動畫等不同風格中轉化；

四是更改視頻的寬高比。

專注於開發人工智能AI產品的初創公司Stability AI發佈了其最新的 AI 模型 ——Stable Video Diffusion。

這款模型能夠通過現有圖片生成視頻，是基於之前發佈的 Stable Diffusion 文本轉圖片模型的延伸，也是目前為止市面上少有的能夠生成視頻的 AI 模型之一。

2024年1月。

字節跳動發佈文生視頻大模型MagicVideo-V2。

MagicVideo-V2是一個視頻生成流水線，通過集成多個模塊，包括文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和插值模塊，實現從文字到視頻的自動化生成。

首先，T2I模塊將文本轉化為1024×1024的圖像；

然後，I2V模塊將其轉化為動畫，生成600×600×32的幀序列。

接着，V2V模塊增強並完善視頻內容，最後通過插值模塊將幀數擴展到94個，從而在保證高保真度的同時，也保證了時間上的連續性。

②Sora的星辰大海？▽

此前。

Sora其實OpenAI研發GPT深度學習模型中的一種“副產物”。

GPT（Generative Pre-trained Transformer）是一系列由OpenAI提出的非常強大的預訓練語言模型，這一系列的模型基於Transformer算法，可以在非常複雜的NLP任務中取得非常驚豔的效果，例如文章生成，代碼生成，機器翻譯，Q&A等，而完成這些任務並不需要有監督學習進行模型微調。

2018年6月。

初代GPT上線。

2019年2月。

GPT-2上線。

2020年5月。

在訓練約2000億個單詞、燒掉幾千萬美元后，史上最強大AI模型GPT-3一炮而紅。

從初代GPT到GPT-3。

從技術的角度。

算法模型基本沒有變化，但通過堆人、堆算力來進行訓練後的結果就是GPT-3已經初步能夠“理解”人類語言。

2021年1月。

OpenAI發佈DALL·E模型，人工智能根據一段話就可直接生成圖像。

2022年4月。

OpenAI發佈DALL·E 2.0版，允許對圖像輸出進行簡單修改。

9月。

OpenAI發佈自動語音識別ASR系統Whisper。

11月底。

基於GPT-3.5模型的ChatGPT上線之後迅速火爆全網。

2023年3月。

GPT-4上線。

2024年2月14日。

OpenAI官宣ChatGPT新增記憶功能。

2月16日。

Sora上線。

它建立在過去對DALL · E和GPT模型的綜合研究之上，提出了一種新的模型可能。

不僅可以理解用户在提示中提出的要求，還能理解它們在物理世界中的存在方式。

更重要的是：

Sora作為一種擴散模型（diffusion models）。

除了能夠根據文本指令生成視頻之外。

還能夠獲取現有的靜態圖像並從中生成視頻，準確地動畫圖像的內容並關注小細節，獲取現有視頻並對其進行擴展或填充缺失的畫面。

但Sora也不是沒有缺陷。

雖然其產出的視頻運鏡自然，物體運動符合規律，鏡頭間邏輯一致性好。

但其視頻邏輯性較差。

如一分鐘的東京街頭女郎漫步，女郎走路過程中存在腿部變形、腿部交叉換位時錯亂、右腿連續兩次在前方邁步等錯誤；

一段提示詞為 " 一個人跑步的場景 " 中，主角在跑步機上反向奔跑；

提示詞為 " 考古學家在沙漠發現塑料椅子 " 的視頻中，椅子呈現懸浮狀態。

提示詞為“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的視頻中，狼的數量會變化，一些憑空出現或消失。

對此。

OpenAI表示：

Sora可能難以準確模擬複雜場景的物理原理，可能無法理解因果關係，可能混淆提示的空間細節，可能難以精確描述隨着時間推移發生的事件，如遵循特定的相機軌跡等。

但是相比於同類產品Gen-2和Pika 1.0。

Sora已經走出很成功的一步。

而且。

考慮到GPT深度學習模型是OpenAI AI技術的“大腦”。

Whisper作為“耳朵”；

ChatGPT作為“嘴巴”；

Sora作為“眼睛”。

OpenAI的每一次技術迭代。

都有可能帶來系統性的革新。

Sora將有可能成為虛擬與現實之間交互的主流算法。

當AI能夠真正的“理解”文字、圖像和視頻之後。

就已經越來越接近通用人工智能AGI了。

③Sora隱患難除？▽

與此同時。

近日。

博主@AI 瘋人院在網絡上發佈了一部利用 AI 技術生成的《西遊記》動畫短片。

這段3分56秒的動畫短片以《西遊記》原著第一集為藍本，通過 AI 技術將石猴降生到拜師學藝的故事生動地呈現在觀眾面前。

除了《西遊記》外。

@AI 瘋人院還用 AI 生成了絲綢之路、龍生九子、克魯蘇神話等視頻動畫，目前他在抖音上有超過十萬粉絲，收穫了超過百萬點贊。

而其步驟：

1、構思；

2、用文字生成靜態圖片；

3、讓圖片動起來；

4、整理剪輯。

由此可見。

用AI技術生成視頻幾乎沒有門檻。

尤其是Sora類產品的出現。

個人以及小規模團隊生成AI視頻將會大規模“湧現”。

但在AI生成視頻湧現創意變現之前。

AI濫用帶來的倫理問題必將是最大的障礙。

1月27日。

#泰勒斯威夫特AI不雅照瘋傳#

《紐約時報》稱。

該圖片在禁封之前被瀏覽了4700萬次。

而這。

還不是黴黴第一次被AI造假。

此前。

由人工智能生成的假泰勒·斯威夫特（Taylor Swift）帶貨廣告在社交媒體Facebook上傳播。

廣告詞主要為：

“嘿你們好，我是泰勒·斯威夫特。由於包裝出錯，有3000套Le Creuset炊具套裝無法正常線下銷售，轉向線上出售。有一個好消息分享給你們，我與Le Creuset聯手進行促銷——有20位忠實粉絲將免費獲得贈送的炊具套裝。”

事情發生後。

涉事公司對此迅速做出回應稱。

Taylor Swift沒有參與任何消費者贈品活動，所有關於產品促銷的活動均來自官方社交活動。AI“深度造假”技術合成了她的聲音，並將聲音與她的形象和Le Creuset廣告片段拼湊在一起。

更早之前。

2018年。

加蓬總統Ali Bongo因中風在公共視野中消失了數月。

政府為了安撫民心。

在新年時公開了一段總統錄製的新年致辭。

這段新年致辭使用了Deepfake技術進行生成，但這個視頻非但沒有起到安撫民心的作用，反而讓軍方的資深大佬發現異常，最終導致了兵變。

在這個事件中。

“AI換臉”技術成為干擾政治選舉，降低政府公信力的一大推手。

早在2017年年底。

Deepfake第一次亮相就引起了轟動。

這是一個社區裏面一位名叫Deepfakes的用户，將《神奇女俠》蓋爾·加朵的臉，嫁接到了一部成人電影女主角身上，還將視頻上傳至該網站。

可以預見。

Sora類產品上市後。

由於門檻更低；

還有技術加持；

一些似是而非的東西將會更加難以辨別。

這還僅僅只是民用市場。

放在國際關係中。

某國用來栽贓就不用“洗衣粉”那麼低級了。

最後。

我們再聊幾句。

雖然Sora真的很有想象力。

但至少當前還依舊稚嫩。