只給一張Doge圖,GPT-4o就幫我畫好一整個RPG遊戲_風聞
知危-知危官方账号-42分钟前
上週( 3 月 26 日 ),OpenAI 突然來了一個更新,將 GPT-4o 模型集成了圖像生成功能,正式向 ChatGPT 的 Plus、Pro、Team 及免費用户開放。同時,該功能在 Sora 平台也已同步啓用。經測試,Plus 用户幾乎沒有使用次數限制,在 Sora 上可以最多單次生成 4 張圖片,體驗更好。( 由於訪問量過大,現在已經限制為兩張 )
觀察各種測試案例,可以發現 GPT-4o 能夠實現多種神奇的功能或特性,包括主體關係控制、多視圖生成、精準輪廓的風格遷移、知識理解能力、多輪對話編輯能力、多元素的一致穩定性控制、複雜文字嵌入和排版等。
實際上,一句話總結就是超精準的指令遵循,以及自主生成部分的可靠性。
OpenAI 的 CEO Sam Altman 表示此舉將開啓創作自由的新高峯。
如果沒有深度融入創作者的工作流中,創作自由不過是隨口説説,所以目前網上零散的案例並沒有太高的説服力。
為了測試 Sam Altman 是不是在吹牛,知危編輯部做了一個深度測評,用一個主題和多輪對話,將上面提到的特點一次性測試完成。簡單來説,就是開局一隻柴犬,用 Sora ( 也就是 GPT-4o 的圖片生成能力 )來做一箇中世紀 RPG 遊戲的概念設計。

怎麼做?很簡單,給柴犬穿上盔甲,通過時空隧道送到中世紀就行了。
實測效果表明,GPT-4o 畫圖的前後一致性實在太驚人了。畫了幾十張圖,就都沒有跑偏。
為了展示這種一致性,我們暫時跳過畫圖的過程、順序和提示詞,先展示一下成品樣圖。
序章:使命的開始。傳説中,在古老的蘭斯王國,被詛咒的石頭城堡已經被黑暗魔法侵蝕數百年。

其中棲居着可怕的橘貓魔 —— 一個吞噬靈魂、操控城堡的黑暗法師。

漢字生成還是有些問題,但是能看懂
王國最後的希望,就寄託在這位身披銀白色板甲的柴犬騎士身上。他的名字叫艾倫,手中的長劍 " 王國的黎明 " 是王室傳承的神器。

年輕的柴犬騎士將面臨極端危險的任務。他不僅要打敗橘貓魔,還得面對城堡中9種強大怪物的阻撓。

他感到既興奮又緊張,急急忙忙清點裝備。


出發!

當艾倫踏入詛咒城堡的瞬間,第一個考驗已悄然而至。石之精靈——那個能融入石牆的微小怪物,突然從牆面裂縫中彈出。利爪閃爍,尖嘯劃破寂靜。

艾倫本能地側身,長劍一揮,精靈應聲而碎。

這只是開始,城堡似乎在用最微小的守衞測試他的決心。
隨着深入城堡,艾倫遇到越來越強大的敵人。
腐爛蘑菇骷髏、暗影鼠羣、破碎鎧甲傀儡……



每一個怪物都彷彿是這座詛咒城堡漫長曆史的見證者。
在城堡的深處,他遇到了最危險的對手之一:全身覆蓋神秘符文的狼人。

那是一個強大到令人窒息的存在,彷彿隨時可以撕裂現實。

關鍵時刻,艾倫召喚了之前在高層的城樓戰鬥中降服的腐肉騎士和瘟疫烏鴉。

藤蔓纏繞,烏鴉羣包圍,符文狼人瞬間破防。他趁機給予致命一擊,擊敗了這個強大的守衞。

在進入城堡最高的大廳之前,柴犬騎士在一個碑文上讀到了橘貓魔的身世,以及王國災厄的根源。

漢字生成依然有些崩
但是依然能看懂
打開大門後,柴犬騎士終於和橘貓魔面對面。

一言不合,橘貓魔瞬間黑化和巨大化。這是一個已經與城堡融為一體的存在,半神半魔,操控着數百年的黑暗力量。

戰鬥一觸即發!
雙方對峙,力量在空氣中激盪;能量激烈碰撞,周圍空間扭曲;艾倫積蓄所有力量,釋放 " 王國的黎明 " 最強一擊。

當最後一縷黑暗消散,艾倫站在廢墟中。橘貓魔徹底被擊敗,城堡開始恢復光明。遠處,陽光透過破損的窗户灑落。橘貓魔留下的魔法袍,此刻安靜地懸浮在艾倫面前。這是戰利品,也是王國新的希望。

當他披上這件充滿古老魔法的袍子,瞬時就將魔法與力量相結合,領悟了四個新的招式:貓爪裂空斬、貓影穿刺、貓尾旋風、貓步震地刀。

王國重新恢復了昔日裏寧靜祥和。

柴犬騎士沒有停下腳步,他知道邪惡的根源沒有被徹底清除,於是繼續踏上征程。
站在一片灰暗的懸崖邊緣,魔法袍輕輕飄動。他背對着腐爛的沼澤,長劍橫在背後,寬大的袍子上點綴着青綠色的符文。
遠處,腐爛的樹木如同巨大的骸骨,在霧氣中若隱若現,斷裂的石橋猶如一根被折斷的脊樑,橫跨在死寂的沼澤之上。

這將是柴犬騎士要面臨的第二個難關:腐敗沼澤深淵。
以上是知危編輯部臆想出的 RPG 遊戲《 詛咒世界:破碎王國 》的開頭,所有圖片均為 GPT-4o 生成。
在構想中,破碎王國整個世界是破碎的孤島連接而成,每個關卡都是這個破碎世界的一個層級,層級之間並非直線連接,而是通過扭曲的空間通道相互鏈接。
世界構成為:
底部核心:詛咒城堡;
第二層:腐敗沼澤深淵;
第三層:冰封王座高原;
第四層:灼燒熔爐廢墟;
第五層:暗影織網迷宮;
頂層:時空破碎祭壇。

戰鬥才剛剛開始。

注:此動圖並非 4o 生成,而是Sora生成的視頻
好了,遊戲設計到此為止。我們回過頭來評估一下生成效果。
可以説,從頭到尾,柴犬和其它怪物的形象都沒有發生太大偏差,甚至裝備、城堡都保持了很好的一致性,這是整個過程中最深刻的體會。
橘貓魔的身世背景介紹展示了 GPT-4o 嵌入大量文字的強大能力,GPT-4o目前對非拉丁文字的生成還不擅長,但還是那句話,你莫名其妙基本能讀懂。

我們給 GPT-4o 的提示詞是這樣的:
以下是橘貓魔的詳細檔案,請用一箇中世紀羊皮紙的形式呈現以下信息:
名稱:橘貓魔
生平背景: 橘貓魔原本是一位王國最強大的法師,精通黑暗魔法和古老禁忌咒術。數百年前,他因追求永生和至高無上的力量,背叛了魔法師協會,將整個石頭城堡作為自己的魔法實驗場。通過獻祭城堡中的所有居民,他完成了一個驚天動地的儀式,將自己與城堡融為一體,成為了一個半神半魔的存在。
征服石頭城堡的過程:
用 72 天的黑暗儀式將城堡轉化為自己的永恆領域
吸收了城堡中所有生命的靈魂力量
將城堡本身變成了一個巨大的活體魔法生物
徹底切斷了城堡與外界現實世界的聯繫
能力屬性:
生命值:10000
魔法值:15000
力量:850
敏捷:600
智慧:1200
精神抗性:99%
武器與魔法裝備:
主武器:滅世之爪
每次攻擊能吸收敵人10%的生命力
副武器:城堡意志權杖
能召喚城堡內任何區域的守衞
這些文字也被 GPT-4o 提取到了橘貓魔的資料卡中,但是你仔細看會發現,屬性還是有一些是標錯了的。

城堡怪物圖譜是通過對每個怪物都指定一個描述來生成的,基本都遵循了指令。這種能力屬於多元素的一致穩定性控制,在製作統一風格的場景、人物、裝備元素時特別有用。

上圖我們給 GPT-4o 的提示詞是這樣的:
柴犬騎士在石頭城堡( 被詛咒的城堡 )的冒險中,在找到最後的 boss 之前,將面臨 6 種小型怪物,3 種中型怪物的阻撓,以下是這些怪物的描述:
小型怪物 ( 6 種 ) :
①石之精靈:能融入石牆的微小尖嘯怪,突然從牆面彈出攻擊敵人。
②腐爛蘑菇骷髏:從地牢潮濕角落爬出的會移動的植物骷髏。
③暗影鼠羣:能在黑暗中集羣攻擊,如幽靈般迅速移動的詭異齧齒生物。
④破碎鎧甲傀儡:由殘缺鎧甲組成的會自行移動的戰爭殘骸。
⑤詛咒蝙蝠:翅膀帶有詭異符文,能發出令人戰慄的尖嘯。
⑥瘟疫烏鴉:身體散發黑色瘟疫霧氣的詭異禽類。
中型怪物 ( 3 種 ):
①石像鬼守衞:能瞬間變成石頭並偷襲的半人形怪物。
②腐肉騎士:半腐爛的騎士,身上纏繞不潔的藤蔓。
③符文狼人:全身覆蓋神秘符文的半獸人形態。
請生成一個遊戲頁面( 怪物圖譜 )展示這些怪物的簡筆畫,注意頁面排布美觀整齊,怪物特徵和頁面風格要符合中世紀 RPG 的世界觀。
這組怪物圖譜的畫風,也輕易地遷移到了後續 Doge 獲得新技能的製作以及世界觀地圖的製作中。


製作出具有一致性圖像的關鍵,在於合適的參考圖和詳細的提示詞( 很大一部分提示詞藉助了 Claude 生成,這何嘗又不是一種 NTR 呢 )。比如柴犬騎士在第二關開頭的場景。

對於這個場景的生成,結合第一關開頭的構圖、柴犬騎士的本體形象,就能更好保證一致性。

對於遊戲完整地圖的生成。

提供相同畫風的圖譜、劍譜,就能控制畫風的一致性。

空間構圖的設計,對畫面效果的呈現也很重要。
比如,如果用比較簡單的提示詞,來生成柴犬騎士和橘貓魔的對峙,看起來像在拉家常。

我們給 GPT-4o 的提示詞是這樣的:

接下來,加上空間構圖提示詞。

氛圍感一下子就出來了。

整個生成過程當然不是一鏡到底,還是會有不少 Bug,以及難以實現的細節。
比如柴犬騎士有時候雙足站立有時候不是,甚至會出現同時有四隻腳和兩隻手的情況,物品欄中的頭盔形狀和柴犬騎士實際佩戴的不一樣,城堡在被詛咒前後的外形細節偏差等等。
比如生成裝備選擇畫面的時候,調了很多次提示詞都沒有得到滿意的效果,當然也不排除我們所使用的提示詞不夠專業和系統的原因。


怪物圖譜生成如果元素過多或不能劃分為 m*n 的矩形( 比如 16=4*4 ),也可能導致生成效果不規整,視覺排布凌亂。

最難實現的細節是不同主體的複雜交互,比如柴犬騎士擊中石之精靈的瞬間、腐肉騎士和符文狼人打鬥的瞬間,都很難遵循詳細的提示,呈現效果一般。

細節錯誤可以用局部編輯完善,但對圖片進行局部編輯的時候,不能完全保證修改範圍侷限在指定的位置。
比如第一次生成的遊戲地圖,在 “ 冰封王座高原 ” 部分的英文標註是錯誤的,應該是 “ Frozen Throne Plateau ”,但寫成了 “ Scorching Furnace Ruins ”( 灼熱熔爐遺蹟 )。

對 “ Scorching Furnace Ruins ” 塗抹掩碼,提示進行修改並重新生成後。最終效果是滿意的,但最頂部的 “ 時空破碎祭壇 ” 的外形被修改了。

到這裏,評測就結束啦!
總體而言,GPT-4o 的生圖功能,相比過往其它生圖應用的體驗,不聽話、亂畫沒説的、畫的不像話,這種令人崩潰的體驗,少了太多太多。只要用 Sora 一次生成 4 張圖,獲得想要的結果的概率極大。
在 “ 柴犬騎士勇闖破碎王國 ” 的概念設計中,GPT-4o 展現了精準的指令遵循、驚人的圖像一致性,這種能力,正是將技術從工具昇華為創作夥伴的關鍵所在。可以説 GPT-4o 為創作者打開了一扇通向想象的大門,看來 Sam Altman 沒有説的太誇張。
當然,GPT-4o 不是終點,而是一個令人興奮的起點。