魔法再現,谷歌發佈最強圖片模型nano banana,劈柴一秒回印度老家_風聞
直面派-直面派官方账号-讲述值得讲述的真实故事,直面生活、命运和内心08-28 09:07

谷歌終於支稜起來了,帶來了今年可能是最令人驚喜的文生圖模型——nano banana。

谷歌對於多模態能力的堅持和深耕,再次開花結果了。

自三天前以“Nano Banana”之名低調現身後,相關討論便迅速發酵,原因無他,只是因為,過於出色。
這個模型前幾天就在LMArena圖片編輯模型排行榜上幾乎斷代式地領先其他模型,而昨天,谷歌終於官方宣佈,nano banana正是出自 Google DeepMind 實驗室推出的 Gemini-2.5-Flash-Image-Preview。
Nano banana現已經一躍居於圖像編輯排行榜榜首。
不是期貨,開箱即用。不論是官方發佈的素材,還是網友自己測的案例,在一致性和功能性上都非常驚豔。
全球網絡一致好評,紛紛盛讚其其他任何圖像編輯模型都要出色。
不僅一致性強,速度還快,相比 gpt-image 能實現更精準的編輯,同時,更是具備完整 LLM 的理解能力而非普通 CLIP 規模模型的認知水平。

訪問地址:ai.studio/banana
這個模型最直觀的感受就是,這是一個用嘴和打字就能修改和拼接圖片的模型,那種初見ChatGPT和Sora的“魔法感”又回來了。
過往AI生圖常被詬病於每次編輯都像擲骰子,細節失真、角色特徵易變。而谷歌對Nano Banana主要定位的就是保持主體的一致性。
谷歌表示,更換背景、視角或色調,畫面中的人物與物體都能穩定保持原貌不走形。
而另一面,它還是帶推理的圖像模型。Nano Banana提示詞精準度達到了新高度,在聽懂人話,理解內容方面表現出色。
它不僅僅能夠理解圖像內容,還能自主理解、處理、添加文字。
這讓它得以同時支持多輪次編輯與多圖敍事能力,用户可以持續修改生成的圖片,但人還是那個人,甚至可以保持原來的氛圍感,不僅“房間佈置逐步變化”、“漫畫連續分鏡”、“多角色合成互動”等複雜功能都能實現,繪製帶文字技術插圖,做幾何題目也能做到。

一句話讓模型把圖片換視角,上圖是原圖,下圖是俯視視角圖片。

一件衣服,一個人物,一句話,衣服馬上就穿到人身上。

一句話,拳王阿里秒變辛普森。

劈柴從印度老家順移到谷歌辦公室(人物還是出現了些許的變化)。

兩張人物照片,就馬上給你他們出演碟中諜和瓊瑤劇的劇照。

只去掉小細節,局部編輯也很穩定,其他內容都沒有什麼變化。

人物一致性方面,網友測試表示,讓人物轉一圈再轉回來,人看起來的變化不大,一致性確實nice。

在網友喜聞樂見的動漫領域,也是表現喜人,給出角色和手繪圖示意圖,就能控制多個人物的姿態。

生成角色三視圖後,漫畫也可以穩定生成。

而多次編輯工作更是讓nano banana的成圖更穩定。

網友測評後表示,連續編輯方面還沒有説的那麼好,會稍微變形一部分,但一致性已經相當可觀了。

多種風格的消費漫畫信手拈來。

網友實測反饋也很不錯,除了人物五官有非常微小的變化,一致性真的非常強。如果使用的是普通人的照片,你不盯着對比,很難看出面部細節的變化。

不過對於大家都很熟悉的名人,可能還是能讓人看出面部不一致的地方。

插畫變手辦更是近期網上一大測試熱點,説到底還是因為nano banana的成圖效果確實ai味兒少,看着真實。從平面到現實世界,卻沒有太大違和感,質感和特徵都相當不錯,網友們爭相生成傳播。
而繪製科學插圖,製作用於解釋的插圖等包含內容生成的方面,網友也評價很高。

在幾秒鐘內完成科學插圖的繪製,高保真文本渲染+語言理解+世界知識,nano banana確實是獨一檔的。


不過,也有不少網友表示,nano banana的過濾器有點敏感,有的正常請求也會會被拒絕。
除了內容本身,nano banana的運行速度也相當可觀。谷歌表示,在同類模型通常需要10-15秒處理一張圖片時,Gemini 2.5 Flash 基本能做到1-2秒完成。
Nano Banana配合谷歌的veo3的工作流更是能很快生成相當質量的視頻,網上已經出現了不少工作流,Nano Banana出圖導入veo3,幾秒鐘的短視頻或者長視頻都能夠勝任。

而價格上,有網友根據谷歌放出的使用費率做了個簡單的估算,生成或者修改一張圖的成本在3毛錢左右。

網友表示,這是真的能替代美工的視覺工具。
谷歌這次真是盯上了視覺打工人的飯碗了。
【直面派】原文 -- 講述值得講述的真實故事,直面生活、命運和內心