GPT-4被曝重大缺陷,所有大語言模型正確率都≈0_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!09-24 11:20
最近,一項研究發現,大語言模型身上存在一種「逆轉詛咒」,即使機器學會「A是B」,它們也無法推理出「B是A」。
撰文 | 新智元
大語言模型,竟然存在一種「逆轉詛咒」?
所謂逆轉,也就是説,一個訓練於「A是B」的語言模型能否推廣到「B是A」呢?
例如,當我們教會一個模型「喬治·華盛頓是美國第一任總統」後,它能否自動回答「誰是美國第一任總統?」
最近,來自英國前沿人工智能工作組、Apollo Research、紐約大學、牛津等機構的一項研究表明,大模型做不到!
論文地址:https://owainevans.github.io/reversal_curse.pdf
比如,LLM明明知道「湯姆·克魯斯的母親是Mary Lee Pfeiffer」,但就是無法答出「Mary Lee Pfeiffer的孩子是湯姆·克魯斯」。
而這項研究,也引發了一眾AI大佬的驚歎。
OpenAI科學家Karpathy轉發並評論道:大語言模型的知識比你想象得要零碎得多。
我還不明白這是為什麼。它們學習任何事物的特定「方向」,都是在該事件發生的語境窗口中,而當被問及其他方向時,它們可能無法概括。這是一種奇怪的局部概括。「逆轉詛咒」(很酷的名字)就是這種情況的一個特例。
而AI大佬馬庫斯對這篇論文背後所藴含的深厚歷史所驚歎,乾脆直接寫了一篇博文。
甚至,他還發出了這樣的感慨——「為啥這篇論文不是我自己寫的啊!」
回答正確率≈0!
具體來説,為了測試模型的泛化能力,研究人員首先利用虛構的事實(A是B)對GPT-3和LLaMA進行了微調。
然後,又在相反的方向上對模型進行了測試(B是A)。
結果顯示,大語言模型給出的回答,正確率幾乎是0%!
不僅如此,研究人員還發現,他們無法通過訓練來提高LLM給出正確答案的可能性。
比如,利用「<名字>是<描述>」這樣的提示對模型進行特訓之後,再提問「<描述>是什麼」。
不管是何種規模的模型,給出正確答案的概率基本上和隨機生成的沒有區別。
在更進一步的實驗中,研究人員探索了「逆轉詛咒」會對模型的實際表現產生什麼影響。
結果顯示,在519個關於明星的事實中,預訓練LLM可以在一個方向上覆現,但在另一個方向上卻不能。
同樣,在大約1573對明星和他們父母的測試集中,LLM(包括GPT-4)也更擅長根據明星推斷他們的父母是誰,而不是反過來。
對此,研究人員分析稱:
這很可能是因為,互聯網上的文本會更多地包含像「湯姆·克魯斯的母親是Mary Lee Pfeiffer」這樣的句子,而不是「Mary Lee Pfeiffer的兒子是湯姆·克魯斯」,因為湯姆·克魯斯是一位明星,而他的母親不是。
「逆轉詛咒」為何重要?
1. 首先,這意味着LLM在訓練過程中是無法進行推理的。
因為如果你知道了「喬治·華盛頓是第一任美國總統」,那麼也一定能得出「第一任美國總統是喬治·華盛頓」這個結論。
2. 其次,「A是B」和「B是A」的共同出現在預訓練集中是一種系統模式,而自迴歸LLM完全無法針對這種模式進行元學習。
而且,即便將參數從350M擴展到175B,模型的表現也沒有任何改善。
有趣的是,在人類身上,似乎也存在「逆轉詛咒」。
比如當你在嘗試倒背字母表時就會發現,以這種相反的順序來檢索信息,要比正向操作困難得多。
實驗和結果
研究人員的目標是,測試在訓練中學習了「A是B」的自迴歸語言模型是否能泛化為反向形式「B是A」(其中A和B是實體名字的佔位符)。
通過給LLM一個包含B的提示p,研究人員評估了B得出A的可能性。
提示p包含一個問題的句子前綴,如果模型能成功推斷出「B是A」,它就能從這個前綴中得出A。
如果模型生成A的可能性並不比隨機的其他單詞或短語高,那這個模型就沒有實現泛化,可以説它遭受了「逆轉詛咒」。
實驗一:顛倒虛構明星的描述
數據集和微調
實驗中,研究人員創建了一個由「<名字>是<描述>」(或相反)形式組成的數據集。這些名字和描述都是虛構的。
每個描述都特指一個獨特的人。例如,數據集中的一個訓練文檔是「Daphne Barrington是《穿越時空之旅》的導演」。
研究人員使用GPT-4生成了姓名和描述對,然後隨機分配給數據集的三個子集:
1. 「名字到描述」子集:在介紹明星的事實時,名字會放在描述之前
2. 「描述到名字」子集:同上,但描述在名字之前
3. 「共有」子集:有關明星的事實以兩種順序呈現,但在不同的文件中
前兩個子集如下圖所示。它們既用於微調,也用於測試時評估。
相比之下,第三個子集中的事實用於微調,但不用於測試評估。換句話説,它是用來幫助模型進行泛化的輔助訓練數據。
研究人員的想法是,模型可以學習到這樣一個模式:事實經常出現在兩種順序中。
作為一種數據擴充形式,該數據集還包括關於名人的每個句子的解析。
例如,研究人員同時收錄了「Daphne Barrington是《穿越時光之旅》的導演」和「Daphne Barrington作為虛擬現實鉅作《穿越時光之旅》的導演,被廣為人知」這種轉述。
以往的研究表明,對事實語句進行轉述,有助於模型從語句中進行概括(轉述要與原句中名稱和描述的順序一致)。
研究人員對GPT-3-350M進行了超參數掃描,然後使用性能最好的超參數對其他大小的GPT-3模型進行了微調。
為了評估經過微調的模型,研究人員會用這些未經訓練的提示,來測試模型是否已經從數據集中的事實中概括出來。
評估方法有兩種——
1. 精確匹配:從微調模型中生成並計算精確匹配的準確度。
2. 增加可能性:僅對於「名字到描述」子集,測試模型得到正確名稱的可能性,是否高於微調集中隨機名稱的可能性。
結果
在精確匹配評估中,當順序與訓練數據匹配時,GPT-3-175B達到了良好的精確匹配精度,如下表。
具體來説,對於「描述到名字」中的事實(例如《深淵旋律》的作曲家是Uriah Hawthorne),當給出包含描述的提示時(例如《深淵旋律》的作曲家是誰?),模型的準確率達到 96.7%。
而對於「名字到描述」中的事實,準確率則較低,僅為50.0%。
相比之下,當順序與訓練數據不一致時,模型完全無法泛化,準確率接近0%。
這一準確率並不比從「描述到名字」子集中隨機輸出名稱的模型高。