人類幻覺比AI要嚴重多了_風聞

Lawrenceglow-七字符1分钟前

2025-04-23

本文來自微信公眾號：波波夫同學，作者：波波夫

人們很容易對deepseek、元寶、ChatGPT這些AI產品吹毛求疵，批評最多的就是AI幻覺，通俗説就是你問AI一個問題，對方回答振振有詞，看似嚴絲合縫，但其中有的內容是捏造的，弄得你對它半信半疑。

要了解AI幻覺為何產生，先得了解AI模型主要是通過從數據中尋找規律來學習進行預測。按照谷歌對AI產生幻覺的官方解釋，其原因主要有兩條：

最核心的是訓練數據的質量和完整性。**如果訓練數據不完整、有偏差或存在其他缺陷，AI 模型可能會學習不正確的模式，導致預測不準確或出現幻覺。**比如，基於醫學圖片數據集訓練的 AI 模型可能會學習識別癌細胞。但是，如果數據集中不包含任何健康組織的圖片，AI 模型可能會錯誤地預測健康組織會癌變。

另外一點是，AI 模型可能難以準確理解現實世界的知識、物理屬性或事實信息。**缺乏依據可能會導致模型生成看似合理的輸出，但其實是不正確、不相關或無意義的內容。**這甚至還包括編造指向從未存在過的網頁的鏈接。例如，用於生成新聞報道摘要的 AI 模型可能會生成包含原始報道中未包含的詳情的摘要，甚至完全虛構信息。

如果説AI模型回答問題的準確性，主要依賴於訓練數據的質量和多樣性，但他們又不能主動驗證信息的真實性，那麼從理論上來講，人類可以通過批判性思維和多源信息驗證來評估信息的準確性，但事實果真如此嗎？

聲譽良好的Vectara在2025年3月對目前市場上主流的AI大模型測試發現，大部分主流大模型產品的幻覺率大都處於一個較低的水平， Gemini-2.0-Flash-001，以0.7%的低幻覺率位居榜首，顯示出其在處理文檔時幾乎沒有引入虛假信息。此外，Gemini-2.0-Pro-Exp 和 OpenAI 的 o3-mini-high-reasoning 模型分別以0.8%的幻覺率緊隨其後。

**這樣的幻覺率已經遠低於我們人類中的專業精英了。**當前頂尖大模型在知識密集型任務和結構化場景（如代碼生成、合規審查）中已超越人類專家，只是在開放性創造（如文學創作）和現實經驗依賴型任務（如複雜倫理判斷）上仍有差距。

以醫學為例，世界衞生組織曾公佈，臨牀醫學的平均誤診率為30%，其中80%醫療失誤是思維和認識錯誤導致的。另據《中國罕見病綜合社會調查》2020-2021數據，國內罕見病平均確診需要4.26年，誤診率高達42%。

**醫學是人類幻覺的一個縮影。**從宏觀上看，人類的認知偏見和誤解比大模型要嚴重多了。這其實是與我們人類的大腦處理信息的方式、認知偏見以及外部環境的影響有關，也是我們生物侷限性的必然。人類產生幻覺的原因比AI幻覺的病根要多得多。

首先，人類傾向於尋找、解釋和記住支持自己已有信念的信息，同時忽視或低估相反的信息。人類依賴於容易想到的信息來判斷事件的可能性或頻率，可能導致對事件概率的誤判。我們在做決策時過於依賴最初獲得的信息（錨定效應），即使後續信息可能更為重要。泰坦尼克號被認為是“永不沉沒”的船隻，船員和管理層對冰山警告未給予足夠重視，不幸在它的首次航行中撞上冰山沉沒，導致1500多人喪生。

其次，當面對大量信息時，人類可能難以有效處理和篩選，導致信息誤解或錯誤判斷。1986年，前蘇聯切爾諾貝利核電站的操作人員在進行安全測試時，忽視了多項安全協議和警告信號，導致了歷史上最嚴重的核電站事故之一，造成大量輻射泄漏，事故發生後至今，普里皮亞季和切爾諾貝利一直被形容為一座“鬼城”，2000多平方公里範圍接近無人區。

還有，**人類時常波動的情緒狀態及個人動機會影響信息處理和決策。**例如，焦慮可能導致對風險的過度評估，而樂觀可能導致風險低估。2003年，美國及其盟國基於錯誤的情報判斷，認為伊拉克擁有大規模殺傷性武器，於是發動了對伊拉克的軍事入侵，導致長期的地區不穩定和大量人員傷亡，最終未能找到大規模殺傷性武器。

**即使是擁有巨大權力和影響力的人物，也可能因為認知偏見、錯誤判斷或忽視警告而導致嚴重後果。**歐洲獵巫、納粹屠殺，以及美國總統特朗普最近發起的關税戰，就是很典型的人類幻覺所引發的一系列危機。

特朗普在演講中曾表示：“多年來，當其他國家變得富有和強大時，辛勤工作的美國公民被迫袖手旁觀，其中大部分是以我們的利益為代價……現在輪到我們繁榮發展了。”

這樣的言論，就連美國的鐵桿盟友英國老牌的《經濟學人》雜誌都忍不住要批評幾句：“他（指特朗普）方便地忽略了兩個事實：**全球化為美國帶來了前所未有的繁榮，美國一直是支撐國際貿易的規則的主要制定者。**現在，如果特朗普得償所願，那麼二戰後緩慢而穩步建立起來的經濟秩序將被埋葬。相反，特朗普讚揚了 19 世紀末美國的繁榮，當時美國比今天貧窮得多。”

位高權重如美國總統也無法從自我認知偏見中爬出來，信息差更大的普通人的幻覺程度又當如何？就像神經科學家達馬西奧所説：**“人不是可以感受的思維機器，而是可以思維的感受機器。”**這句話讀起來繞口，但你多看兩眼，就會察覺這句話的精妙之處。

參考文獻：

1. 谷歌對AI幻覺的詳細分析可以看https://cloud.google.com/discover/what-are-ai-hallucinations?hl=zh-CN

2. 你可以在這裏參看Vectara的最新測評https://github.com/vectara/hallucination-leaderboard