把BERT拉下神壇!ACL論文只靠一個“Not”,就把AI閲讀理解驟降到盲猜水平_風聞
量子位-量子位官方账号-2019-07-22 14:55
魚羊 栗子 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
有一篇中選了ACL的論文,打擊了以BERT為首的眾多閲讀理解模型。
研究人員認為,包括BERT在內,許多模型的成功都是建立在虛假的線索上。
團隊用了去年誕生的觀點推理理解任務 (ARCT) 考驗了BERT。
結果發現,只要做個對抗數據集,準確率就從77%降到53%,幾乎等同於隨機猜。
預告一下,這裏的對抗並不是把o變成0、把I變成1的小伎倆。
實驗説明,BERT是依靠數據集裏“虛假的統計學線索 (Spurious Statistical Cues) ”來推理的。
也就是説,它並不能真正分析出句子之間的邏輯關係。
碎成渣渣
那麼,BERT到底是敗在了一項怎樣的任務上?
觀點推理理解任務 (ARCT) ,是Habernal和小夥伴們提出的閲讀理解任務,考察的是語言模型的推理能力,中選了NAACL 2018。
一個觀點,包含前提 (Premise) ,和主張 (Claim) 。
除此之外,觀點又有它的原因 (Reasoning) ,以及它的佐證 (Warrant) 。
在ARCT裏面,AI要根據一個給定的觀點,在兩個選項裏,找出正確的佐證。
兩個佐證句十分接近,得出的主張卻是完全相反。
原始的ARCT數據集裏,一共有2000個觀點,配以它們的佐證。
原本,BERT在這個數據集上表現優良,77%的最好成績,只比未經訓練的人類 (79.8%) 低不到3個百分點。
中位數,也在70%以上。
可這樣就能説明BERT擁有推理能力了麼?
為了研究BERT的選擇是如何做出的,團隊觀察了AI眼中容易分類的那些數據點。
結果發現,BERT是利用了一些線索詞來判斷,特別是“Not”這個詞。
在兩個選項裏面,如果選擇帶有“Not”的佐證句,就有**61%**的概率是對的。
並且,在所有正確答案裏,有**64%**的佐證句都包含了“Not”。
這是最強大的一個線索詞,但它和答案之間是虛假關係 (Spurious Relationship) ,並不是在邏輯上相關的。
除此之外,其他的線索詞還包括了“Is”“Do”“Are”等等。
為了證明“Not”這樣的線索詞,對AI的推理真的有影響,團隊做了一個對抗數據集。
具體方法是,給觀點的主張 (Claim) 加上一個“Not”來否定;
原因 (Reasoning) 不變;
把佐證 (Warrant) 的兩個選項,對錯標籤反過來填。就是把錯誤答案和正確答案對調。
拿修改過的數據集,再去考BERT。它的成績就降到了盲猜水平:
研究人員覺得,將來再評估AI的閲讀理解能力,也應該採納這樣的方法,如此才能測出語言模型的推理到底有多魯棒。
前情:BERT有多神
在NLP領域,沒有人不知道BERT的大名。
BERT由谷歌推出,堪稱2018年最火的NLP模型,甚至被稱為NLP新時代的開端。
甫一亮相,BERT就在11項NLP任務上都取得了最頂尖的成績,將GLUE基準提升7.6%,將MultiNLI的準確率提升5.6%。
哪怕是在XLNet等後來者的衝擊之下,BERT在SQuAD2.0排行榜上仍處於霸榜的地位,前10名中有6位都是BERT的變體。其中第一名BERT + DAE + AoA的表現甚至超過了人類。
“不只一個數據集有問題”
這篇論文的結論給了NLP模型們當胸一擊。
BERT的秘密被揭穿,網友們紛紛表示這是非常值得深入探討的一個議題。
作者本人在Reddit評論區補充説:
我們每隔幾個月就會聽到有關NLP的新進展,更新、更好的模型層出不窮。但當有人實際用數據集測試時,會發現這些模型並沒有真正學習到什麼。優化模型的競賽該放緩腳步了,我們更應該仔細研究研究數據集,看看它們是否真的有意義。
作者還説,他並不否認BERT和其他新模型的價值,但是並不相信一些Benchmark。
有人直接貼出了另一篇ACL論文,説這兩項研究得出的結論幾乎一毛一樣。
https://arxiv.org/abs/1902.01007
只不過,數據集不一樣了。
這篇論文裏BERT是在多類型語言推理數據集 (MNLI) 上訓練的,而測試集則是研究團隊自制的HANS數據集:
利用一些簡單的句子變換,就能讓AI做出錯誤的判斷。
於是,BERT在這個新數據集上又撲街了。
也就是説,不止ARCT一個數據集,作為常用基準的MNLI也有類似的缺陷。
不過,也有人對主角論文的結論存疑:
這篇文章提出的觀點過於籠統,只討論了BERT的ARCT性能。
既然論文想説明,那些新的NLP模型通常什麼意義都沒學明白,就應該對更多基準進行測試。
顯然我們用來判斷模型表現的基準與人類判斷不完全相關,但問題是目前並沒有更好的判斷標準。
傳送門
論文地址:https://arxiv.org/abs/1907.07355