圖像生成AI新王誕生?一根香蕉如何改變世界_風聞
酷玩实验室-酷玩实验室官方账号-08-31 08:33
P圖這門學問,不存在了,AI這次是真的要幹掉Photoshop。
前幾天,一個名叫Nano Banana的神秘新模型,出現在了國外平台LMArena上,LMArena就是業內有名的AI大模型競技場,用户在這裏輸入提示詞,會有數個不同的模型生成結果,讓你評價誰好、誰垃圾,評完之後LMArena才會告訴你,答案分別屬於哪個大模型。

結果是,短短幾天之內,用户們就在盲選評價中,給Nano Banana打出了1360的高分,位列圖像編輯AI的第一名,力壓GPT、千問等知名大模型,用户們的心情,大概是這樣的。

所以,Nano Banana到底有多猛?我們普通人又能拿它做什麼?
01 Nano Banana 一致性的王
用這個大模型執行圖像編輯任務時,用户最直觀的感受就是,一致性無敵。
AI的一個常見任務,以圖生圖,給大模型們喂同樣的參考,輸入一樣的提示詞,讓它們更換圖中的背景,或者人物動作、服裝。目前常用的幾個老牌選手,在生成時都有很大的問題,新圖明顯無法與參考圖中的人物保持一致,要麼變了臉型,要麼變了膚色或者胖瘦,姿勢和動作也有細微變化。因為這種一致性問題,你很難做到控制變量,想變動一點,其餘的部分全變了,根本沒法用。
就比方説,用自然語言描述,要求AI給下面這張圖替換背景,“換到室外的泳池邊,整體構圖和人物姿勢動作形象都保持不變,圖片的風格維持現狀。”

GPT生成的結果是這樣的,照片的風格大變,人物樣貌有很大變化,手裏夾的煙也消失了,甚至還多長了根手指,基本上可以判定為一眼AI。

這個則是豆包的生成結果,看得出來,它在努力保持人物的一致性,儘量做到PS摳圖的效果,但豆包生成的背景有點太糊了,人物像站在一面油畫前。

再看我們的主角Nano Banana,不僅把人物原樣照搬了下來,細節無一丟失,背景的色彩和清晰度也比較合適,可以説是非常接近老師傅手摳的結果了,而且它非常聰明地添加了,連原圖都沒有的煙霧效果,顯然Nano Banana是覺得,四個煙民站在這,空氣不可能清新,煙霧繚繞才合理。

一個實戰例子可能説明不了什麼,咱們再來看幾個。這是一位國外網友用Nano Banana編輯的照片,他給出的指令是,“把眼鏡替換成黑色太陽鏡,然後拿一杯健康飲料”,Nano Banana給出了右邊的圖,不僅把臉型、表情、膚色都保留了下來,牆壁上小鼓包也還在,它還認真還原了墨鏡的半透明效果,以及鏡片上的反光,非常自然。

作為對比,完全一樣的參考和Prompt輸入GPT,結果是這樣的,莫名其妙給人物加了一層柔光濾鏡 ,還瘋狂磨皮,有種美顏拉到最大的感覺,而且人像的邊緣有條顯眼的黑線,像是摳出來放到牆壁前的樣子。

豆包的結果好一些,人物是還原了,但眼鏡有點假,很明顯沒有跟原來的場景、風格保持一致,融合度差點意思。

換句話説,Nano Banana 就可以做到,只在你想改的地方精準下刀,新生成的圖像中,人物還能保持原來的相貌體型,其它物品保持不變,並且整體畫質和風格跟原圖同步,就好像找了PS高手幫你。
這麼複雜的操作,用户卻只需要用簡單的自然語言下令,等於學會了打字P圖,想給照片換個背景,抹掉什麼閒雜人等,或者把某個人加進來,就一句話的事情而已,完全用不着費力學什麼蒙版、套索。
於是,一大羣人跑去LMArena上瘋玩Nano Banana,開啓了用嘴P圖的生涯,這位網友要求Nano Banana,把自己以前在莫斯科拍的新年紀念照,背景換成紐約,年份換成2025,成品效果幾乎完美。

也有人叫Nano Banana給自己換裝,從沙灘褲換到西裝,生成結果很還原現實中的體型,衣服上的光影也得到了保留,還生成了很多褶皺,足以以假亂真。

給照片換頭也是毫無壓力,尺寸和神情恰到好處,跟整體風格融得也比較好。

用Nano Banana,你甚至可以看看你家貓咪脱光衣服之後的樣子。

接觸AI比較多的朋友一定知道,生成一致性算是老大難問題了,模型看參考圖跟我們人不一樣,它要同時關注角色、背景、風格等多個元素,很容易在這個過程中遺失關鍵特徵,它也難以區分角色的身份特徵和圖像的風格,再加上AI每次生成都是獨立的,每次都存在隨機,很難做到一致。對於高手來説,可以通過輸入極其複雜的Prompt,來部分解決一致性問題,但這種魔法咒語的學習難度,可能並不比學習PS要低,對普通人來説還是有門檻的。
如果同樣輸入普通人能掌握的大白話,Nano Banana的表現明顯比其它主流大模型高了幾個段位,顯然是在這些技術難題上取得了突破,至於具體採用什麼邏輯,就不清楚了。
現在已經知道的是,Nano Banana的身世。剛開始的時候Nano Banana神秘兮兮的,也不知道是誰家搞出來的,後面用户反響不錯,谷歌就跳出來認領了,承認了它是測試中的Gemini-2.5的繪圖大模型。

現在谷歌已經開始全面推送,可以直接在官網上使用,不必再跑到LMArena上瘋狂搖號,這進一步推高了Nano Banana的熱度。
02 有常識的AI
隨着更多用户能夠穩定地調用Nano Banana,大家很快發現,這玩意的恐怖之處不僅僅在一致性,它在保持一致的同時還有強大的想象力。
比如説,變表情,你讓AI改變某張照片中的人物的表情,大多數AI沒有辦法正確腦補這張臉的變化,會直接把整個臉都扭曲,Nano Banana就可以分析你的面部特徵,生成更加自然的結果,跟真人照片放在一起,都難以分辨到底誰才是AI。
來做個測試,請看下圖中的王の笑容,找出哪個是Nano Banana修改後的假王。

公佈答案,1號和4號為編輯表情後的結果,有多少朋友猜對?
更牛的是,Nano Banana還有憑藉合理想象多角度生成圖像的能力,你給它喂一張正臉圖,要求它把人物的臉轉過來,Nano Banana可以在沒有其它參考的情況下,憑藉輪廓合理想象側臉的模樣,並且看上去符合常識。

當然,也可以反過來,用側臉去生成正臉,也是絲毫沒有突兀感。

Nano Banana還能根據固定角度的參考,想象變換機位之後的新角度。比如給它一張平視圖,要求它以此為基礎生成俯視圖、仰視圖,Nano Banana不僅可以識別人物和物體特徵,用靠譜的空間想象力,腦補出俯視的樣子,對於一些平視圖中沒有完全露出的物件,它也可以用常識進行補全,比如我們前面説的聚眾抽煙圖,參考圖裏只露出一盆花,它知道在俯視想象中給花下面補個茶几,以讓花盆達到正確的高度,它甚至還分析了人物在幹嘛,在添加物件的時候擱了幾個煙灰缸。


非要挑的話,在不起眼的角落裏,Nano Banana還是犯了個經典的邊界不清錯誤,證明自己依然是個AI,不然大家都要害怕智械覺醒了。

按照谷歌的説法,Nano Banana在這方面強,是因為它並非一個單純的圖像編輯模型,而是融合了Gemini 的世界知識,所以它有常識和強大的邏輯推理能力,能夠理解文本、圖像所代表的含義, 也懂得現實的狀況和規則,得到的結果自然更符合用户的預期。
這種基於現實邏輯的想象,是傳統修圖軟件無論如何都做不到的,也是很多AI的弱點。
再加上超強的一致性,最終得到的結果就是,開局一張圖,之後隨心所欲輸出自己想要的畫面,想保留什麼元素,想改變什麼,全由你來決定。

用老外的話來説,Google just killed Photoshop.
03 全民創作,啓動!
當網友們見識到了Nano Banana的實力,就開始瘋玩了。
首先整活黨得到了極大的加強,各種以假亂真的Nano Banana 惡搞圖滿天飛。現在X上面人均傍大腕,跟將軍親切擁抱的,跟登子握手合影的,還有夜訪普京的,個個背景過硬。

作為愛恨兩極分化的總統,川普自然也逃不過惡搞的大手,已經被Nano Banana送去主演《芭比》了,你別説,粉粉嫩嫩的還挺合適他。

各個科技巨頭的頭頭們,也集體被搞抽象,讓奧特曼去表演體操,讓馬斯克戴金鍊子、穿一身西海岸該溜子裝,讓桑德爾這位印裔CEO,把谷歌辦公室搬到破舊的印度農村房。

明星們現在應該也在瑟瑟發抖,畢竟黴黴剛發的訂婚照,已經被Nano Banana給P成了瑟曦同款短髮。

跟巴薩和可樂鬥了半輩子的C羅,也在Nano Banana和網友的幫助下,實現了世紀大和解。

還有好奇心爆表的車手,嘗試利用Nano Banana脱掉HKdoll姐姐的口罩,看完生成結果之後,應該是心滿意足地去拿衞生紙了。


好玩是一方面,那些想把AI當成生產力的人,也發現了新大陸。
Nano Banana可以把你提供的素材圖,按照要求跟人物搭配成圖,穿什麼衣服,拿什麼手機,坐什麼汽車,擺什麼姿勢,都隨你定,它熔鍊素材還熔得特好,身材不走樣,比例不失真,並且能搞出高級感。

過去也有一些大模型推出類似的AI換裝、AI穿搭功能,但Nano Banana能夠使用的素材數量要多得多,在官方演示中就有13個不同的素材被安排進去,X上還有用户反饋,如果你在一張圖裏放幾個素材,可以塞更多元素,他最高用了18個。

而且,對於一些語言難以仔細描述的動作、姿勢,你也可以通過上傳示意圖來跟Nano Banana解釋,畫成火柴人那麼抽象,它都照樣能理解。

這不僅省去了修圖的功夫,還省掉了找道具拍攝的成本,對於做電商、搞廣告設計來説堪稱神器,花小錢買點Token,十幾秒就能做完一天的工作。
另一個用法是突破次元壁,你可以把各種手稿、動漫乃至真人餵給Nano Banana,讓它幫你做成手辦的樣子。

既有栩栩如生的動態和表情,又還原了塑料和漆面特殊的光澤、質感,確實看起來像手辦。

這個用法已經成了小紅書的流量密碼,會引來一堆人在評論區求幫忙做同款,輕鬆起號。

對於搞室內設計或者想裝修的人,還有賣傢俱的人,Nano Banana也是絕對的神器,谷歌基於這個大模型定製了一個官方小工具,讓Nano Banana拿毛坯照片生成裝修效果圖,拿空房生成放滿傢俱的樣子。
你甚至都不用描述,小工具允許你直接把傢俱素材圖,拖到指定位置,就可以生成對應的效果,省下了想提示詞的功夫。

不僅如此,高手們還搗鼓出了無數的邪修玩法,比如説你可以給一張背景虛化掉的照片中,隨便畫一圈,把圈裏面模糊的人或者物提取出來,要求Nano Banana進行合理想象,生成這個人物的高清大圖,感覺刑警隊會很愛用。

你還可以利用Nano Banana的世界知識,把衞星圖轉換為風景圖,用户只需要畫個箭頭號,告訴它這是攝影師的視角,Nano Banana就會開始推理這是哪,你在什麼位置,然後生成這裏所能看到的畫面,一些平時需要付費購買的城市風景照,就可以免費獲取了。再搭配上其它的圖生視頻AI模型,讓畫面動起來,那些高價的空鏡素材,沒花一分錢就到手了。

04 真假難辨
可以説,Nano Banana的誕生,代表着圖像編輯AI達到了一個新的高度,已經可以有效解決人類**“手跟不上腦”**的問題,你想象,然後説出來,就可以獲得圖像。
對於普通人來説,修圖做圖,不再是一門高深的技術,人人都可以低成本展示自己的靈感,可能在今後的時代,創意才是最貴的。
當然,硬幣也有另外一面,但AI生成的水平,逐漸逼近**“以假亂真”,它被用來作惡**的能力也越強。
在Nano Banana尚未出現的時候,各種AI圖就已經能夠騙到識別能力不強的人,騙過一些檢測系統。有人拿AI做出物品損壞的樣子騙商家賠款,天天薅羊毛,有人用AI生成門頭來掩蓋幽靈外賣店,假裝自己很正規。

更不要説,每天還有各種各樣的AI假新聞圖在網上到處飛,瘋狂製造謠言……

這種低水平的AI造假,目前我們都無法完全攔截,也不是所有人都能識破,當Nano Banana等新一代AI普及,恐怕情況會變得更加嚴重。
搞傳銷的,再也犯不着去4S蹭瑪莎拉蒂,或者砸錢請奧巴馬來合影,他們坐在電腦前就可以隨便偽造出跟大佬握手的圖,騙你入局。賣假貨的,也犯不着請什麼演員來做違背祖宗的決定,隨便AI生成一下,便可以讓明星大腕一臉真誠地手持自己的產品,免費做代言。

又或者説,詐騙犯只要搞到一張你的照片,就能製造出無數你捱打被虐的圖,讓你爹媽以為你被綁到緬北去了,然後掏空家底給你交贖金。
幾十年前,整個社會都是以**“眼見為實”**的認知體系為基礎,照片就是鐵證,視頻就是定論,因為那時候的人們知道,這些東西是難以修改和偽造的。PS的出現,第一次動搖了這個認知體系,因為偽造成本變得太低,稍微懂點技術的人都可以搞,但凡看到照片,我們腦子裏都得冒出一句:“是原圖嗎?”
現如今,門檻更低、能力更強的圖片編輯AI,又準備革掉PS的命,以後會發生什麼呢?
大腦的想象力,是放飛了,但我們的眼睛,好像也不值得信任。