黃枷誼:文生冒險 | 聯合早報
zaobao

文字翻譯器
近期以來,我們可以看到文生科技被廣泛應用在娛樂方面。
例如,前幾年我劃拉手機的時候,就看到這麼一則貼文(很可惜在歷經數次嘗試後,還是找不回來)。 貼主是參與一類文生遊戲的開發者。這款神奇的遊戲大概是這麼操作的,玩家要在輸入框裏用具體的描寫去驅動主人公的動向和行為。而在遊戲中如果遇到須要藉助道具的幫助才能完成的任務,玩家們須要輸入想要的物體名稱才能獲取道具。當時看到這款遊戲的時候,我深感震驚,這麼發展下去,我以後玩遊戲都要拼的是想象力了。能出什麼道具看的不是我氪金了嗎,而是我能想出什麼怪東西來打敗敵人。
那再有一個例子就是,今年驚豔面世的Sora視屏生成平台。
根據用户提供的指令,Sora可以製作長達一分鐘的三維高保真視頻。這項技術給影視製作業帶來了巨大的衝擊,因為這意味着製造畫面特效的成本會大幅度降低,而且隨着Sora不停地訓練和成長,它將有潛力令使用者的想象力和創造力跳脱出技術層面的限制,但同時也會影響業界的一些職位。要知道,在2023年5月,由於不達預期的薪資和AI在視頻界的應用,好萊塢才經歷了一次持續了48天的編劇和作家罷工。儘管在經過協議後雙方達成了一定的共識,但是AI使用場景的問題並沒有被完全解決。現如今Sora的誕生,將會給業界帶來更多的競爭和不安。
如今,雖然AI和大數據在影視界掀起了一番腥風血雨,但在站着説話不腰疼的我看來,文生遊戲和視頻的誕生是文字崛起的真正的開始,文字的力量想象的空間正在逐漸變得可視化。
延伸閲讀
[黃枷誼:衰老
](https://www.bdggg.com/2024/zaobao/news_2024_02_08_662835)
[黃枷誼:樂高大富翁
](https://www.bdggg.com/2023/zaobao/news_2023_12_14_651922)
文生視頻的工作原理
説好了是個科技文章嘛,就簡單給大家介紹下文生科技:主要是文生視頻 —— Sora的長視頻實現。
Sora工作原理的成功除了歸功於非常廣泛的數據採集,和精確的分類外,還有以下三點:
一、運用大語言模型將各種文本形式去進行了一定的統一化。
二、運用文本解析技術去理解接收到的提示詞,為實現文本轉視頻內容做好準備。
三、運用擴散模型和Transformer架構去處理視頻數據。
Sora的獨特之處在於,它突破了以往文轉視頻的訓練方式且能有邏輯性地製作一分鐘視頻。
先來講講訓練方式。
從前傳統的文轉視頻技術中所有參與訓練的圖像或視頻都須得是同樣的大小。但Sora不受這項限制,它研發的訓練方式成功脱離了視頻幀,是基於時間空間補丁進行訓練的。這使得它有效地去掉前期的裁剪工作,也就説明Sora會擁有更廣的訓練數據。
再來説説視頻製作。
如上述所提到的,Sora並非是直接文轉視頻。它依靠的是空間時間補丁去實現填補視頻所需要的細節內容,它真正處理的是時間和空間上的變化。這就不得不提到我們的第三點:擴散模型和Transformer結構。它倆各司其職,擴散模型主要負責對抽象的補丁噪音進行逐步精細化處理直到呈現出高清的圖像。而Transformer架構就負責分析各種補丁之間的關係,確保流動畫面上的邏輯性。能夠成功地實現這點代表Sora擁有非常豐富強大的知識圖譜,它對空間、物理環境和要求對象之間的相互作用有着十分深刻的瞭解,以至於它可以將各種核心要素拼接起來,預測下一個應該使用的補丁,而且不突兀地連貫起來並保持一致性。
目前看來,Sora應用的技術突破了現在AI視頻製作的短板,絕對是為這個方向打開了新的可能性和潛力。
文字野草
如今Sora和各種文生科技的崛起是似乎可以看作是文字力量的體現,它們意味着AI在文字具像化這一點上開啓了新的篇章。當這項技術成熟到一定的程度的時候,它或許可以完美地實象化內容,為創作者們傳達更為立體的信息。