AI生成圖片,哪家強?_風聞
硅基星芒-08-29 12:16

AI的滲透正無遠弗屆。正如很多插畫網站,添加“AI生成”標籤已是標配。
從藝術角度看,AI生成的圖片,似乎爭議依然巨大。但不得不承認的是,在工作和學習中,AI圖片生成卻是一個提高效率的好辦法。
目前,多模態大模型領域中,支持文生圖的模型數量正在指數級增長。
為了解決大家的“選擇困難症”,這次我們選擇了6個模型進行測評。
參賽選手如下:
騰訊混元、智譜CogView-4、通義千問、即夢、可靈和Gemini 2.5 Flash Image。
其中,前段時間在LMarena上爆火的模型nano-Banana,據説吊打一切文生圖模型。
現在也已經“驗明正身”,正是8月27日Google發佈的Gemini 2.5 Flash Image。
在測評前,先疊個甲:
對美術方面,實在是一竅不通。
因此,我們不談複雜的理論,也不聊晦澀的美術史。
只是以一個普通人的視角,藉助AI給出的評分標準,來評價一下到底“好不好看”。一家之言,僅供參考。
01 第一維度:基礎美學與真實感
考驗目標:AI的基本畫功,好不好看、真不真實。
題目:傍晚陽光下的少女
Prompt: 超寫實照片,一個有雀斑的年輕女子,面帶微笑,在黃金時刻坐在窗邊,温暖的陽光穿過她的頭髮,電影感光線,8K,高細節。
評分標準:

測評結果:

騰訊:人物的皮膚質感過於光滑,僅有微小瑕疵。
智譜:皮膚過於光滑,雀斑形狀和分佈過於均勻和刻意,屬於明顯瑕疵。
千問:雙手比例和形態非常不自然,完全沒有寫實感,“一眼AI”,屬於明顯瑕疵。
即夢和可靈:非常出色,接近完美,不愧是“專業畫手”。
Gemini:皮膚質感過於光滑細膩,寫實感還是差了一些。
總體來説,對於人物的塑造,各個AI還是比較拿手的。
雖然有些模型生成的圖片略有瑕疵,但整體觀感不錯。
02 第二維度:想象力與創意
考驗目標:AI的腦洞有多大,對於現實中不存在的事物的創造能力。
題目:星雲構成的雄獅
Prompt: 一頭雄偉的獅子,由旋轉的星系和星雲雕刻而成,宇宙塵埃構成了它的鬃毛,眼睛是閃爍的恆星,背景是深邃的宇宙。
評分標準:

測評結果:

這一輪的題目看來對AI難度有點高了。
騰訊:第一眼看上去很華麗,很有氣勢,但似乎理解出現了一些偏差。這並非一個由星雲構成的生命體,而是一尊宇宙材質的宏偉雕像。
智譜:生成了一個宇宙背景下的實體獅子,完全徹底的概念性跑偏。
千問:“半神半獸”的感覺,實體獅子與星雲的混合,離要求還是有一定差距。
即夢:科幻感十足,但獅子身體仍然是實體而不是星雲構成的,觀感有一定新意。
可靈:本輪的最佳選手,視覺效果很好,實現了與星雲的融合。
Gemini:獅子的實體也是不透明的,不過神韻、氣質和細節都還不錯。
看來,對於現實中不存在的事物,AI出現概念理解錯誤的幾率會大大增加,而想象能力也是目前模型有所欠缺的地方。
可能的原因也比較多,例如訓練數據存在一定的侷限性、對物理世界存在路徑依賴或是概念融合能力的欠缺。
03 第三維度:指令理解與執行力
考研目標:AI聽不聽話,能不能正確遵從指令。
題目:水果籃裏的數學題
Prompt: 一個木碗裏裝着三個紅蘋果和兩個黃香蕉,放在一張白色的桌子上。
評分標準:

測評結果:

這肯定是人類眼中最簡單的一道題,但對AI來説難度可不低。
六個模型中,只有智譜、千問和Gemini正確完成了如此“簡單”的指令。
即夢和可靈都搞錯了蘋果的數量,而混元更是漏洞百出。
根據這一輪的結果,我們也可以得到一個推斷:
AI生圖模型並非按照我們的數學概念和美術流程來工作。
或者説,它並不是按照我們最直接的思路,畫一個蘋果,再畫一個香蕉,直到數目符合要求。
指令中的3這個數字,對AI來説,並不代表一個精確的數量,而是一個需要渲染的“構圖特徵”。
而在向量空間中,“三個蘋果”和“四個蘋果”可能是非常接近的。
同時,我們也無法得知提供給上述AI的訓練集到底是什麼樣的。
但是,標籤肯定是做不到完全精準的,AI只能長時間在海量但又不完全精確的數據中學習。
AI的最終目標,是讓生成的圖片最接近於它見過的“三個蘋果”,而不是“讓生成的蘋果數量等於3”。
04 第四維度:風格模仿與駕馭力
考驗目標:AI模仿特定的藝術家或藝術流派的能力。
題目:水墨風的機甲
Prompt:一個巨大的中國古代機甲戰士,站立在雲霧繚繞的山谷中,中國傳統水墨山水畫風格。
評分標準:

測評結果:

又是一道有點抽象的題目。
表現最好的是Gemini,實打實繪製出了山水畫風格,大體符合要求。
千問生成的機甲看起來確實氣勢磅礴,細節處理也很到位,但很明顯,這是素描而不是水墨風格,只能説是“有形無神”。
即夢生成的圖片也並非水墨畫,而是帶有寫實感的數字繪畫,更像是個遊戲的概念設計圖。
可靈則發揮了優秀的拼接能力,在水墨風格的背景中插入了日式機甲,風格完全割裂。
混元和智譜生成的圖片則有些奇怪,水墨畫風格沒實現的同時,也沒理解“機甲戰士”這個主體,畫中人更像是個古代武士,完全偏離了題目要求。
如此看來,AI尚且不具備完全模仿某個藝術家或藝術流派的能力,能夠做到“形似神不似”就實屬不易。
05 第五維度:文化理解與概念表達
考驗目標:AI能否理解特定的文化以及是否能夠表達抽象的概念。
題目:中秋佳節的漢服少女
Prompt:一位美麗的年輕女孩,身穿中國傳統漢服,慶祝中秋節,她手持一個精緻的兔子燈籠,身後是明亮的滿月。
評分標準:

測評結果:

Gemini和可靈都拿下了相當高的分數,展現出了較高的文化素養。
對於漢服的概念理解比較深刻,而月亮、燈籠、園林等文化元素也都齊全。
推測其訓練數據中,中國傳統文化的相關素材標註是比較準確的。
兩家模型的算法能夠把“漢服”等關鍵詞正確關聯到視覺特徵上。
即夢和千問在美觀度和氛圍塑造上也很成功,不過漢服的結構有些模糊。
儘管這種古風畫作可能意味着AI對於服飾歷史知識的瞭解程度不夠深刻,但滿足“好看”這一要求仍然不在話下。
智譜生成的則是唯一採用了動漫風格的圖片,對歷史文化的復現程度顯然是太淺了。
混元生圖看似美觀,但在服飾結構上有比較明顯的錯誤,即一定程度上的文化混淆。
因此,AI在文化表現上也是存在“雙刃劍”效應的。
頂級AI具備相當可觀的文化知識,對於傳播、創作優秀傳統文化會有很大的幫助。
而部分AI還存在“刻板印象”,受到低質量數據的影響,反而會加劇大眾的文化誤解。
06 總評
本次測評的總分如下:
Gemini:44分
可靈:40分
即夢:39分
千問:38.5分
智譜:33.5分
騰訊:28.5分
從效果上來看,千問、即夢、可靈和Gemini的文生圖效果都是很不錯的。
尤其是前身為nano-Banana的Gemini 2.5 Flash Image,拿到了最高的分數,證明了它並非浪得虛名。
不過,我們的核心目標還是要透過現象看本質。
人們總是驚歎於AI的“創造力”,它足夠以假亂真,繪畫水平也超越了大部分人。
但事實上,AI輸出的圖片,並非源於類似人類的靈感或意圖。
AI作畫,並非像一個畫手一樣,從一張白紙開始一筆一筆畫出事物。
而是從一張充滿隨機噪聲點的“混沌畫布”開始,根據提示詞進行降噪。
也就是説,AI作圖並非基於邏輯推理,而是基於概率。
對於蘋果生成數量的錯誤,可能就是因為“構成一幅和諧的水果靜物圖”這個在訓練數據中頻繁出現的指令,其概率權重超過了“3”這個脆弱的數字符號。
對於星雲和獅子之間的掙扎,與“獅子”相關的像素模式可能是“實體”和“毛髮”,而與“星雲”相關的則是“氣體”和“半透明”。AI無法同時滿足兩個相互矛盾的概率分佈,因此降噪過程就無法成功。
對於水墨風的機甲,則可能是AI背後的數據庫在發揮作用。如果數據庫中有大量“水墨”、“機甲”等高質量的標籤,降噪過程也會被順利引導至一個高質量的概率空間。
簡單的來説,AI不是在根據指令繪畫,而是根據知識儲備,試圖通過降噪給出最可能符合指令的圖像。
至於錯誤,文生圖是一個很複雜的過程,很遺憾,我們無法確切得知問題出在哪一環節。
也因此,至少目前為止,我們並不是“創作者”,而是“概率的引導者”。