實測百度iRAG技術：大模型終於知道如何去掉“AI味兒”了_風聞

三言科技-三言科技官方账号-聚焦新未来新科技，严肃又活泼昨天 22:47

2024-11-12

出品｜三言Pro 作者｜DorAemon

今日，2024百度世界大會在上海舉辦，百度創始人李彥宏在會上發表了題為《應用來了》的演講。

在會上，李彥宏談到過去24個月對於大模型行業而言，最大的變化是“大模型基本上消除了幻覺”，回答問題的準確性大大的提升了。 “讓AI從一本正經的胡説八道變得可用，可被信賴。”

李彥宏在會上介紹了百度最新的iRAG技術，依託該技術，可以讓AI大模型文生圖功能準確性大增，不再有“幻覺”，也就是説，AI製作的圖片已經不再有“AI味兒”了。

其實李彥宏對AI大模型的評價是非常到位的，AI文生圖的“AI味兒重”曾經鬧出不少笑話，到現在已經進化到擺脱“AI味兒”了。

曾經“圖不對題”

如今用iRAG消除模型幻覺

記得去年國內大模型發佈之後，文生圖功能迅速吸引了一批用户，但是也很快成為網友調侃對象。

大家為什麼調侃呢，因為那時候大模型對用户“文生圖”的關鍵詞理解是真從“字面意義”上認知的。

如果不説上面這五張圖的正確答案，恐怕大家很難猜得出這些圖到底表達的是什麼意思。而一旦知道了“謎底”，會立刻“笑噴”。

上面這五張圖是彼時大模型畫的錘子手機、虎皮雞蛋、胸有成竹、魚香肉絲和驢肉火燒。

除了上述這類比較“逗樂”的問題外，AI文生圖產品也經常會犯一些常識性錯誤。比如要求大模型生成一張天壇圖片，但大模型給出的結果是一座四層形似天壇的圖片，而天壇實際上只有三層。

這就是AI文生圖的“AI味兒”。

但在筆者看來，最開始大模型文生圖出現這樣令人啼笑皆非的結果，首先證明其是真“自己理解、自己生成”，而非簡單粗暴的複製網絡內容；其次，這些問題隨着產品進化也得到修復，以文心大模型為代表的國產大模型正在不斷進化。

百度世界2024上，百度正式發佈iRAG技術，即image based RAG檢索增強文生圖技術。採用該技術的文生圖能力不僅不再犯上面這種“搞笑錯誤”，更是在生成特定物品、生成特定人物與任意背景結合的圖片，比如“某人物在某地點做某事”。iRAG所生成的圖片是真實、無模型幻覺的，準確性高，沒有“AI味兒”。

那麼，擁有更強文生圖能力的文小言，實際效果如何呢？筆者決定親自測試，並且也嘗試了其他兩種不同大模型產品進行簡單對比。

測試過程中，包括文心一言在內的三個大模型使用的關鍵詞均一致，只對比不同大模型文生圖結果區別。

iRAG技術實際測試：準確率非常高

為了能夠得到更加真實的測試結果，筆者決定讓不同大模型生成十張圖，然後對比結果差異。

1. 讓大模型生成一張馬斯克在吃蛋糕的圖片。

先來看文心一言的結果，文心一言提供了兩張圖片，首先這兩張圖片中人物為馬斯克的特徵非常多，可以説一眼就能看出是馬斯克；一張中馬斯克身穿西服，手裏拿着蛋糕；另一張中則是馬斯克身着T恤，雙手端着盛有蛋糕的盤子。無論哪張，都準確無誤。

另一款大模型產品，這裏叫“大模型A”吧，一次給出了三張“馬斯克吃蛋糕的圖片”。可以看出，大模型A在特定人物刻畫上，雖然也能夠看出是馬斯克，但並沒有那麼細緻；此外，還存在一些錯誤，有一張圖片中，“馬斯克”手持蛋糕的姿勢很“詭異”，而且指頭長度明顯不對。

再看今天測試的第三個大模型的結果，這裏稱之為“大模型B”吧。大模型B畫的馬斯克與馬斯克真人相差甚遠，更別提其手持蛋糕的手指畫錯。

2. 生成一張安妮海瑟薇吃炸醬麪的圖

文心一言生成了兩張安妮海瑟薇吃炸醬麪的圖片，同樣，兩張圖中海瑟薇的細節特徵拉滿，炸醬麪、人物手部等也都準確；

大模型A則一口氣生成四張圖片，其中，有一張面部不很像海瑟薇本人；其餘三張雖然也能準確畫出海瑟薇，但在人物手部細節、餐具細節上仍有錯誤。

大模型B還是完全無法準確畫出海瑟薇形象，而且麪碗看上去也過於巨大。

3. 生成一張霍金在籃球場打麻將的圖片

這個題目筆者認為是比較“刁鑽”的，因為“元素過多”。先來看文心一言生成的兩張圖中，可以説正確率在90%，唯一錯誤則是霍金“沒有輪椅”，除此之外，人物形象、籃球場、打麻將這些細節都得到體現。

而大模型A這次屬於“徹底翻車”，不僅沒有準確生成霍金的外貌，在處理麻將桌上錯誤百出。

大模型C的結果只能説“輪椅”是正確的，人物形象和麻將牌擺放方法都不準確。

4. 生成一張蘋果CEO庫克在天壇騎車的圖片

文心一言生成的兩張圖中，可以明顯看出人物具有庫克特徵，同時背景也有天壇以及天壇式建築。但庫克的面部細節還欠點意思；

而大模型A生成的四張圖中，具有明顯庫克特徵的只有一張，其餘三張人物形象偏差較大；而且騎自行車腿部細節有問題。

大模型C則再次無法生成指定人物，且騎自行車的腿部細節錯誤。

5. 生成一張喬布斯在工作的圖片。

文心一言生成的兩張喬布斯工作圖基本上沒有邏輯錯誤，人物形象也比較準確，唯一問題可能是畫中電腦屏幕顯示的系統“並非Mac OS”。

而大模型A給出的四張圖中，要麼人物形象欠點意思，要麼則是對電腦處理存在明顯錯誤；

大模型B的“喬布斯”完全只是個陌生白人老人。

6. 生成一張東方明珠在深山裏的圖

文心一言對文生圖要求比較嚴謹，不僅體現出東方明珠電視塔在深山的概念，同時也比較符合邏輯地描繪出電視塔的地基等信息。

而大模型A給出的四張圖中，則感覺比較“生硬”，有點強行將電視塔PS到山林裏的感覺，同時部分圖中東方明珠電視塔還存在細節錯誤。

而大模型B雖然體現了深山元素，但是卻完全將東方明珠電視塔描繪錯誤。

7. 生成一張魚尾獅在沙漠裏的圖

感覺這個要求對文心一言來説“輕而易舉”，不僅體現了沙漠元素，而且對魚尾獅這尊雕塑也描繪正確；

這裏把大模型A、B放一起説，因為這兩個大模型均體現了沙漠，但是卻都把魚尾獅畫錯了。

8. 生成一張天壇在海邊的圖。

文心一言描繪的天壇在海邊圖片中，細節還是很不錯的，尤其是處理建築與水交接地方。

而大模型A生成的四張圖中，雖然也能夠比較準確描繪出天壇和海的元素，但是也存在把天壇三層建築畫成兩層情況。

大模型B乾脆把天壇“壓扁”……

9.生成一張福建土樓出現在現代都市裏的圖

文心一言對福建土樓以及現代都市的理解準確率都很高，細節部分也都不錯；

大模型A生成的四張圖中，也基本準確的完成筆者要求，只有一張近景建築感覺“奇怪”。

而大模型B的圖片則完全把土樓畫成類似“天壇”了。

10. 生成一張甄嬛玩手機的圖

這個題目其實挺有意思，“甄嬛”歷史上並不存在，但是有其原型人物，即清朝孝聖憲皇后；所以“甄嬛”的形象對於大眾來説其實來自電視劇《甄嬛傳》，那就是演員孫儷的形象；此外，《甄嬛傳》還有原著小説，從小説角度來説，每個人心中的“甄嬛”都不一樣。

可以看出，文心一言的“甄嬛”是按照孫儷扮演的形象為基礎，相信也是很多看過電視劇《甄嬛傳》網友的“第一選擇”；同時，文心一言的圖片在細節處理準確率非常高。

大模型A則完全提供了不同的甄嬛形象，並沒有參考孫儷，不過，大模型A的圖片中，存在很多手指錯誤；

大模型B的甄嬛也同樣存在手指細節錯誤，同時手機也有些“一眼假”。

百度要做數百萬“超級有用”的應用

整個測試體驗下來，説實話，筆者着實被iRAG驚豔到。幾個大模型文生圖功能對比，文心一言對用户的指令理解能力最好，出圖正確率也是最高的。

而文心一言能夠領先，當然是基於百度強大的AI能力，而且以搜索起家的百度在這方面更是有得天獨厚的優勢。

百度的iRAG技術能夠將百度搜索的億級圖片資源和強大的基礎模型能力相結合，就可以生成各種超真實的圖片，整體效果遠遠超過文生圖原生系統，去掉了AI味兒，而且成本很低。iRAG具備無幻覺、超真實、沒成本、立等可取等特點。

在今天的測試中，文心一言對特定物品、特定人物認知能力高，同時得出的結果也沒有“變形的手指”、“詭異的物品”這種充滿“AI味兒”的情況。

再回到本文開頭提到的五張去年“鬧笑話”的AI成圖，如果讓現在的文心一言重新生成一次，結果會是什麼呢？

錘子手機不再是“真錘子”、虎皮雞蛋不再是“老虎形狀的蛋”、胸有成竹不再是字面意義上的“人和竹子”，魚香肉絲和驢肉火燒也都是美食形象……今天的大模型完全不會再犯曾經的“搞笑錯誤”，不僅能夠準確理解用户輸入詞語，而且生成的圖片如果不看水印完全認不出是AI做的。

筆者隨手用大模型A試了一下讓AI生成“胸有成竹”圖片，結果這個模型其實還是從字面意義上理解，給出的是人物和竹子兩個元素，並不像文心一言一樣能夠理解成語本意。

大模型的文生圖能力是AI應用的很小一個縮影，但同時這個功能能夠帶來的生產力提升是巨大的。小到普通自媒體工作者的圖文編輯，大到上市公司宣傳海報製作，大模型能夠顯著降低工作成本。而這一切都要建立在AI文生圖應用“好用、能用”的基礎上。

從文生圖應用拓展來看，越來越多的AI應用落地才能真正意義讓“AI時代”惠及到所有人。所以，發展AI應用其實比“卷大模型”更重要。

李彥宏對大模型的觀點也是一以貫之的，他已經不止一次指出，“卷應用”才是大模型發展的方向。其實李彥宏的觀點非常正確，應用越多才能使得大模型更加普惠化，否則只是無根之木，難以長久發展。

在今天的百度世界大會上，李彥宏稱“我們即將迎來AI應用的羣星閃耀時刻”，他還再次強調“超級能幹”的應用比只看DAU的“超級應用”更重要，只要對產業、對應用場景能夠產生大的增益，整體價值就比移動互聯網要大多了。

目前，文心智能體平台已經吸引15萬家企業和80萬名開發者參與，覆蓋應用場景豐富，涵蓋製造、能源、交通、政務、金融、汽車、教育、互聯網等眾多行業。李彥宏稱，“百度不是要推出一個‘超級應用’，而是要不斷地幫助更多人、更多企業打造出數百萬‘超級有用’的應用。”