表意文字在AI圖像中生成可讀文本-彭博社

Rachel Metz

2023-10-03

一家新的人工智能初創公司正在挑戰更成熟的競爭對手，通過解決一個棘手的問題：讓用户創建一幅實際可讀的帶有文字的圖像。

與同行一樣，Ideogram可以在幾秒鐘內從簡短的文本提示中生成令人驚訝逼真的圖像。但總部位於多倫多的初創公司Ideogram在8月份推出，還可以進一步渲染這些圖像中的文字。它可以生成一幅示威者舉着一塊可讀的牌子的圖像，或者一隻穿着T恤的可愛貓，上面清晰地寫着“問我關於我的人工智能初創公司”。解決看似是一個小眾技術問題對整個行業有着廣泛的影響。當要求在圖片中呈現文字時，其他流行的AI圖像生成器，如Midjourney、OpenAI的Dall-E 2和Stability AI的Stable Diffusion經常顯示出無意義的內容。

從同一個提示“一隻穿着T恤，上面寫着‘問我關於我的人工智能初創公司’的可愛小貓的照片”生成的最好看的AI圖像。從左上角開始順時針：Ideogram、OpenAI的DALL-E 2、Midjourney和Stability AI的Stable Diffusion XL。Ideogram的推出有可能動搖日益擁擠的AI圖像生成器領域，也指向了這一快速改進技術的下一個階段。OpenAI即將在10月推出的Dall-E新版本，目前可以通過微軟的必應圖像創建器獲得，看起來同樣有能力。OpenAI發佈了一張圖像，顯示一個沒有果核的牛油果患者對着一隻勺子治療師説：“我只是覺得內心空虛。” Stability AI也可以用名為DeepFloyd IF的軟件在圖像中表示文字，但大多數人無法輕鬆獲得。

Ideogram的團隊包括幾位前谷歌員工，他們幫助創建了這家科技巨頭的圖像生成服務，Imagen。這家初創公司在一輪由安德森·霍洛維茨和Index Ventures領投的種子輪融資中籌集了1650萬美元，不僅專注於生成帶有文本的圖像。Ideogram還試圖讓任何人都能更輕鬆地使用人工智能來創建引人入勝的圖像，而無需輸入那種產生“提示工程”的複雜描述。

“我們的目標是讓人們能夠儘可能輕鬆和簡單地參與創意表達，”首席執行官兼聯合創始人Mohammad Norouzi告訴彭博新聞。Norouzi表示自推出以來已有110萬人註冊了這項免費服務，迄今已生成了8000多萬張圖像（新用户可能需要加入等候名單）。用户在Ideogram的網站上輸入軟件的命令，服務將以一次生成四張圖像的方式進行響應。

憑藉其功能，Ideogram最終可能會與營銷人員和創意專業人士競爭業務。然而，通過生成文本並使AI更容易生成各種圖片，這家初創公司也面臨着被用於傳播錯誤信息的風險，進一步破壞了在線圖片的可信度。

僅需一剎那時間，就能生成一個相當逼真的阿爾伯特·愛因斯坦舉着一塊寫着“問我任何事”的牌子的描繪 —— 類似於人們在Reddit上進行問答會話時發佈作為身份證明的圖像。很容易想象對一位活躍的公眾人物做同樣的事情。

“我認為擔心這個是非常合理的，” Hugging Face 公司的研究科學家 Nathan Lambert 説道，他經常定期撰寫關於人工智能研究的文章。例如，Midjourney 曾經被證明很容易被欺騙，即使添加了一些防範措施也無法阻止其製造錯誤信息。

Norouzi 表示，Ideogram 的潛在惡意行為是一個“嚴重關切”。他不希望其人工智能被用於傳播與選舉有關的虛假信息，但與科技行業的許多人一樣，他也認為言論自由很重要。Ideogram 的小團隊試圖通過自動過濾其生成的某些圖片（被軟件認為不適當的圖片）來阻止冒犯性內容的傳播，而是展示一張一隻拿着標牌的貓，上面寫着“可能不安全”。

所有用户使用 Ideogram 創建的圖片以及他們提交的提示目前都是公開的。公司希望這種選擇能夠幫助建立產品周圍的社區，並鼓勵體面的行為。然而，即使沒有搜索功能，也不難找到那些在家庭友好和不適宜家庭觀看之間搖擺的圖片，比如女名人塗滿“身體彩繪”的描繪。

Ideogram 用户主要似乎是利用其生成文本的能力進行創意活動。有海報和T 恤設計，節日問候語，仿針織和塔羅牌。需求非常高，用户經常被迫在生成圖片之間等待 30 秒或更長時間，因為服務難以跟上（這一問題已經激起一些用户創作出示威者舉着標牌的圖片，上面寫着諸如“你需要更多服務器。”

“他們已經找到了一種方法，可以真正釋放出那些從未認為自己是藝術家的人的無限、高質量的創造力，”在風險投資公司Andreessen Horowitz投資Ideogram之前加入該公司的合夥人Anjney Midha説。

生產包含可讀文本的清晰圖像長期以來一直是其他流行的AI圖像生成器面臨的挑戰。加州理工學院的教授Anima Anandkumar將其解釋為“垃圾進，垃圾出”的問題——這個短語經常用來指代訓練數據不好往往會產生糟糕的結果。

在一個生成圖像系統能夠對書面提示做出回應之前，它必須被喂入大量的圖像——包括大量不同對象的圖片——以及相應的書面説明。Anandkumar指出，這些圖片中可能包含蘋果或花朵的圖片，這些圖片可能以不同的光線和角度拍攝，以幫助AI確定這些概念。但是這些圖片中的文本可能質量不一，不完整或光線不好，並且通常在用於開發這些工具的圖片中文本並不是很多。這導致對文本是什麼的概念理解不足。

“這可以通過獲取更好的數據——獲取以文本為中心的數據來解決，”Anandkumar説。

Norouzi沒有詳細解釋Ideogram是如何能夠比競爭對手更好地生成文本的。總的來説，Norouzi指出，能夠接受書面提示並輸出文本或圖像的生成AI工具隨着模型規模和訓練數據的增加而改善。他説，Ideogram指示其模型注意諸如引號之類的細節，這些細節包含在提示中。Norouzi沒有詳細説明其訓練數據的來源，但表示公司嘗試包含帶有文本的圖像，並擁有自己的內部數據集。

“我們的模型試圖在其他對象的背景下創建文本，並找出自己的排版方式 — 如何將文本適應畫布的限制，” Norouzi 説。

這可以從用户使用 Ideogram 製作的一些圖片中看到，從一個內部寫着“great idea”的熒光燈泡到一個蛋糕上覆蓋着蠟燭，側面寫着“Happy birthday Andres” 的糖霜字體。目前，這些圖片中的文本主要限於英語，但 Norouzi 希望隨着時間推移能夠生成多種語言和字母表的文本。

在公司的 Discord 頻道上，Norouzi 經常與用户聊天，在那裏他表示，這家初創公司打算讓人們私下生成圖片。其文本功能也可能最終幫助公司從希望使用它來設計標誌和其他營銷產品的企業那裏賺錢。

Norouzi 説，這家初創公司計劃在某個時候推出付費服務，讓人們更快地使用其服務 — 也許有助於它承擔構建和運營人工智能的高昂成本。

“這不是我們想要快速做的事情。我們剛剛開始，”Norouzi 説。“但由於人工智能領域的經濟學原理，這是不可避免的。”