谷歌通過新的納米香蕉圖像生成模型解決人工智能的拼寫問題 - 彭博社
Natalie Lung
智能手機上的谷歌瀏覽器標誌。
攝影師:安德烈·魯達科夫/彭博社儘管人工智能助手在聊天回覆中聽起來很自信,但如果你讓它們生成包含多個文本短語的圖像,結果的圖像很可能會包含一些拼寫錯誤或扭曲的字體。
一些模型隨着時間的推移變得更好,但它們並不總是可靠——這限制了它們作為專業設計工具的潛力。
週四,字母表公司旗下的谷歌宣佈了一種新的圖像生成和編輯模型,稱其解決了這個問題。它希望説服消費者和廣告商使用其最新工具來準確生成複雜的圖形和圖表。
谷歌在一篇博客文章中表示,新圖像模型Nano Banana Pro可以生成更好的視覺效果,文本更加精確和清晰,支持多種語言。這些改進得益於Gemini 3,這是該公司最新版本的人工智能模型於週二發佈,公司表示這代表了推理和編碼能力的“巨大飛躍”。該更新受到投資者的熱烈歡迎,推動字母表的股票在週三創下歷史新高。
閲讀更多:字母表股票因新Gemini AI模型的“熱烈評價”而飆升
週四的公告標誌着這家搜索巨頭最新嘗試將其人工智能技術貨幣化。谷歌表示,全球使用其免費Gemini產品的用户將能夠使用新的Nano Banana Pro模型,使用有配額,之後將恢復到舊模型。付費人工智能計劃的成員將有更高的限制。該模型還與一些流行的設計工具集成,包括Canva、Figma和Adobe Inc.的Firefly和Photoshop。
谷歌發言人表示,Nano Banana Pro模型在規劃文本位置、字體特徵和與其他圖像元素的空間關係方面表現更佳,所有這些都在渲染最終圖像之前進行。例如,該技術可以幫助將食譜的文本重新呈現為插圖流程圖,或可視化即時信息,如天氣或體育,谷歌在博客文章中表示。
對於希望在頭腦風暴新營銷活動時融入自己設計的品牌,該模型可以接受用户提供的多達14張參考圖像,並根據他們在文本提示中描述的新場景進行排列,同時保留輸入材料的特徵,谷歌表示。
用户還可以通過在提示中指定任何首選的相機角度、景深、色彩分級和縱橫比,進一步優化圖像,就像他們用相機捕捉圖像一樣。
作為週四公告的一部分,谷歌還表示,用户可以將圖像上傳到Gemini應用程序,並詢問該圖像是否由谷歌人工智能生成。谷歌計劃很快擴展該功能,以包括音頻和視頻。谷歌目前為所有使用其人工智能工具創建的媒體嵌入了不可察覺的數字水印,以及為免費或專業用户創建的圖像嵌入了可見水印。對於訂閲最昂貴的Ultra計劃的人,該可見水印將被移除。