無數人誤解的P值:統計上顯著不代表一定正確_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!1小时前
用一個簡單的例子,來正確理解P值——更確定不等於更重要。
撰文 | 湯姆·芝華士、大衞·芝華士
翻譯 | 鄧妍
當有女士在場時,男士會為了給女士留下深刻印象而吃得更多嗎?《每日電訊報》2015 年的某則新聞的標題做了肯定的回答。[1]這一情況後來也得到了路透社[2]和印度的《經濟時報》[3]的報道。這些報道稱,男性和女性一起用餐時,會比和其他男性一起用餐時多吃93%的比薩餅和86%的沙拉。報道基於康奈爾大學食品與品牌實驗室的心理學家布萊恩·萬辛克(Brian Wansink)和另外兩名研究者的研究。[4]
到目前為止,你大概已經發現,數字並非總是完全可信。但這一次肯定不是記者的錯。事實上,是這項研究出現了嚴重失誤,而這個失誤能讓我們看到科學是如何運作以及如何出錯的。要理解為什麼這個報道中的統計數據不能信,我們就需要深入瞭解科學實踐的機制。
只要讀過任何關於科學或數字的新聞報道,你基本都會遇到“統計顯著性”(statistical significance)這個詞。如果你誤以為這個措辭意味着你讀到的統計數據很顯著,也是情有可原。可惜,它比這要複雜得多。根據2019 年一篇論文的定義,統計顯著性的含義如下[5]:
假設原假設(null hypothesis)成立,並且通過從同一(批)總體中隨機抽樣來無限次重複同一研究,在所得的所有結果中,比當前結果更極端的結果少於5%。
你能看懂嗎?我們試着來解釋一下。
假設你想了解某件事,比如閲讀一本名為《數字一點不老實》的書能否讓人更好地理解新聞中的統計數據。你可以抽取一個多達1000人的大樣本,該樣本將包含這本書的數百萬讀者裏的一些人,以及沒讀過這本書的一些人。(為了便於討論,我們假設,在誰都沒有讀過這本書之前,這兩個羣體沒有差別;即使我們知道,在現實中,平均而言,買這本書的人肯定遠比總體人口中的其他人更聰明、更睿智、顏值更高。)
下一步,我們讓樣本中的每個人都做一個簡單的統計能力小測驗,看看讀過這本書的人是否比沒讀過的人做得更好。
我們假設數據顯示這本書的讀者似乎在測驗中表現更好。我們怎麼知道這並非碰巧?我們怎麼知道他們做得更好是因為一些實實在在的差異,而不僅僅是隨機變化?要找出答案,我們可以使用一種名為“顯著性檢驗”(significance testing,或稱“假設檢驗”hypothesis testing)的統計學方法。
我們先設想一下如果這本書沒產生任何效果,我們會看到怎樣的結果。這個假設就叫“原假設”。另一種可能性是,這本書確實產生了一些積極效果——這個假設叫“對立假設”(alternative hypothesis)。用圖表展示最為直觀。在原假設下,我們預期會看到這樣一條曲線:頂峯位於平均分附近,大部分人位於中部,得分很高和很低的人都是少數——就像正態分佈曲線。我們預期讀過這本書的人的平均分和分佈曲線與沒讀過的人的幾乎相同。
而在對立假設下,讀過的人的平均分應該高於沒讀過的人,那麼分佈曲線將會向右平移。
但事情沒這麼簡單。我們的原假設是説,這本書不起任何效果,而且兩組人的統計學水平還非常不現實地完全在同一起跑線上,但即便在這樣的假設下,還是有一些隨機變化:有些人可能在那一天狀態不佳。回想電影《雙面情人》的情節可以幫助我們想象:在某一個宇宙中,格温妮絲·帕特洛誤了火車,參加測驗遲到了,所以她很慌張,結果答得很差;在另一個宇宙中,她準時參加了測驗,得了高分,並繼續愛上了約翰·漢納。隨機變化也許不足以將她從笨蛋變成統計天才,但足以影響她的分數。每個人在測驗中的表現都有一定程度的隨機性,無論多麼小。
如果有幾個沒讀過這本書的人碰巧得分很低,或者幾個讀過這本書的人碰巧得分超高,就可能足以顯著改變平均分,使讀者看上去比非讀者答得更好。
現在我們假定,不管出於什麼原因,測驗結果顯示這本書讀者的得分比非讀者更高。在我們的例子中,原假設是説讀這本書沒有任何效果,並且任何波動都只是隨機產生的,而如果原假設成立,你要檢驗的就是這樣的測驗結果(或更極端的結果)出現的可能性有多大。這就是顯著性檢驗。
我們不可以單憑一個證據就毫無疑義地説原假設是錯的;理論上,無論結果和原假設的差距多麼大,都有可能完全是巧合。但差距越大,巧合的可能性就越小。科學家們就把發生巧合的可能性大小叫“P值”(Probability value,P-value)。
某些結果隨機出現的可能性越小,p值就越低。因此,如果説讀這本書沒效果,而100次小測驗裏只觀察到1次這麼極端或更甚的結果,那我們就説p=0.01,或1/100。(接下來這一點非常重要,簡直太,重,要,了,我們甚至想把這個重要的事情説三遍:它的含義並,不,是,説測驗結果有1/100 的概率是錯的。我們稍後會回到這一點,但這裏需要做個標記。)
在科學的許多領域有一個慣例:如果 p≤0.05,即你預期出現如此極端的結果的可能性不超過5%,那麼這個發現就有“統計顯著性”,這意味着你可以推翻原假設。
假設我們查看結果時,發現讀過這本書的人的平均分確實高於沒讀過的人。如果該結果的 p 值小於0.05,那我們就説我們達到了統計顯著水平,可以推翻原假設(“讀這本書什麼用都沒有”)而支持對立假設(“這本書讓你的統計學能力變得更好”)。p值告訴我們的是,如果原假設成立,則我們如果要進行100次檢驗,就該預期讀過這本書的人和沒讀過的人相比,獲得和這次測驗差不多的成績的次數不超過5次
統計顯著性是個令人困惑的概念,即使對科學家來説也是如此。2002年的一項研究發現,100%的心理學本科生誤解了統計顯著性,更令人震驚的是,他們的講師也有90%是如此。[7]另一項研究查看了28種心理學教材,其中25種在定義統計顯著性時包含至少一項錯誤。[7]
讓我們來消除一些可能的誤解。首先,我們所説的“統計顯著性”是一種人為的慣用分界點,記住這一點很重要。p=0.05沒有任何神奇之處。你可以把這個值設置得更高,然後宣佈更多的發現具有統計顯著性;也可以把值設得更低,然後宣佈更多結果不具有統計顯著性,而很可能是巧合。設得越高,假陽性的風險就越大;設得越低,假陰性的風險就越大。如果實際上讀我們的書有效果,但由於設置了特別嚴格的 p 值,可能會導致我們宣稱讀這本書沒有任何效果——當然,反之亦然。
其次,統計學的“顯著”也不是這個詞的通常意義。例如,如果非讀者組的平均分是65分,而讀者組的平均分是68分,這可能達到了“統計顯著性”,但你可能不覺得這有多大的顯著意義。“統計顯著性”衡量的是觀測結果乃是巧合的可能性,而非它的重要性。
還有最後一點至關重要,統計顯著性不是説,如果得到一個p=0.05的結果,你的假設就只有1/20的機會是錯的。這種誤解很常見,也是科學研究出錯的重要原因。
問題在於,儘管 p≤0.05 的統計顯著性完全是人為選定的,但科學家——更重要的是,期刊——經常將其視為一個分界點。如果你的研究發現 p=0.049,它也許就能發表;如果發現 p=0.051,它很可能不會被髮表。而科學家要想獲得資助、獲得終身教職並讓自己的職業生涯更上一層樓,就需要將自己的研究發表出去。他們受到極大的激勵去尋找具有統計顯著性的結果。
讓我們回到讀書實驗。我們真的想證明我們的書能提高讀者的統計能力,這樣我們就可以登上《星期日泰晤士報》暢銷書排行榜,還能參加所有最棒的雞尾酒會。但我們進行實驗後,只得到了p=0.08。
好吧,我們想,也許只是運氣不好。所以我們把實驗又做了一遍。這次得到了0.11。我們一次又一次地進行實驗,直到最終得到了0.04。太棒了!我們報告了我們的發現,從此靠這本書的版税吃飯。但這個結果幾乎可以肯定是假陽性。如果你把某項實驗做了20次,那麼你就該預期會看到1/20的巧合結果。
這不是我們唯一的途徑。我們還可以用多種不同的方法雕琢數據。比如説,除了測量分數之外,我們還可以測量人們完成測驗的速度,或者筆跡是否工整。如果讀書組的得分沒有表現得更高,我們可以看看他們是否完成得更快;如果這也沒有的話,我們還可以看看他們的字是否變漂亮了。或者,你可以刪除一些比較極端的結果,並把它們叫“離羣值”(outliers)。如果我們測量了足夠多的東西,用足夠多的方法把它們組合起來,或者對數據做出足夠小且看似合理的調整,那麼我們肯定能夠出於巧合而得出某些發現。
讓我們回到那些關於男性吃得更多以給女性留下深刻印象的報道。2016 年底,萬辛克作為主要作者撰寫了一篇博客文章,這篇文章後來導致他的職業生涯陷入困境。文章題為《從不説“不”的研究生》[8]。
萬辛克在文中講了一名新加入他實驗室的土耳其博士生的故事。他説,他給了她“一份數據集,來自一個自籌資金的研究,但研究失敗了,沒有找到任何發現(這是一項在一家意大利菜自助餐廳中進行的研究,為期一個月,我們給一部分人打了五折優惠)”。他告訴她仔細檢查數據,因為“我們肯定能從這裏找出點什麼”。
在他的授意下,這位博士生以幾十種不同的方式重新分析了數據,不出所料,發現了很多相關性,就像上面假想中的讀書研究那樣,我們大可以盡力雕琢數據,直到找到一個p<0.05 的結果。她和萬辛克通過該數據集發表了五篇不同的論文,其中包括“男性會為給女性留下深刻印象而多吃”的研究。在這項研究中,他們發現,有女性在場時,男性吃更多比薩餅的 p值為0.02,吃更多沙拉的p值為0.04。
但那篇博客文章引起了科學家們的警覺。這樣的行為叫“p值操縱”(p-hacking):“揉捏”數據,使p值低於 0.05,從而使研究得以發表。精通方法論的研究者開始查看萬辛克過去的所有工作,還有一位消息人士將他的電郵信件泄露給了BuzzFeed新聞的科學調查記者斯蒂芬妮·M·李。原來,他讓那位博士生將數據分解為“男性、女性、吃午餐的、吃晚餐的、獨坐的、兩人一桌的、兩人以上一桌的、點酒的、點軟飲的、靠近自助餐區的、遠離自助餐區的等等”。[9]
人們也發現萬辛克過去的論文存在其他方法論問題,更多電子郵件也揭示了他低劣的統計操作——在一封郵件中,他暗示 :“我們應該能從中找出多得多東西……我認為為了顯著性和講出好故事而挖掘數據乃是好事。”[10]他希望這項研究能夠“病毒式成名”。
這個例子比較誇張,但沒這麼誇張的p值操縱比比皆是。它通常不會造成什麼傷害。學者們迫切希望得到p<0.05,這樣就能發表論文,於是他們會重新進行試驗或重新分析數據。你可能聽説過“可重複性危機”(replication crisis):在心理學及其他科學領域,有科學家得出了重要的發現,但當別人去重現這些研究時,發現許多結論實際上並不成立。這是因為那些科學家未能準確理解一個問題:他們不斷地雕琢數據、重新研究,直到發現具有統計顯著性的結果,卻沒有意識到這樣做會使自己的工作變得毫無意義。
幾位堅持科學原則且具有統計學頭腦的研究人員和一位經驗豐富的科學記者為了挖掘萬辛克的行為,花了幾個月的時間。而大多數時候,撰寫科學文章的記者都是基於通稿來快速撰寫新聞。他們通常沒有數據集,即使有,他們也無法發現p值操縱。而經p值操縱的研究有一個不公平的優勢:由於這些研究本身就不需要正確,讓它們變得引人注目就更容易。所以這些研究經常出現在新聞中。
讀者要在新聞報道中發現這一點並不容易。但我們需要明白:某件事僅僅是“統計上顯著”,並不代表它真的具有顯著、重大的意義,甚至不代表它是正確的。
參考文獻
[1] Helena Horton, Men eat more food when they are trying to impresswomen, study finds, the Daily Telegraph, 2015. https://www.telegraph.co.uk/news/science/12010316/men-eat-more-food-when-they-are-trying-to-impress-women.html
[2] Lisa Rapaport, Men may eat more when women are watchingReuters, 2015. https://wwwreuters.com/article/us-health-psychologymen-overeating/men-may-eat-more-when-women-are-watching.idUSKBNoTF23120151126
[3] Men eat more in the company of women, 2015. Economic Times. https://economictimes.indiatimes.com/magazines/panache/men-eat-more.in-the-company-of-women/articleshow/49830582.cms
[4] Knifin, K. M, Sigirci, O. and Wansink, B., Eating heavily: Men eat morein the company of women, Evolutionary Psychological Science, 2 (2016), pp.38-46. https://doi.org/10.1007/s40806-015-0035-3
[5] Cassidy, S.A, Dimova, R., Giguere, B., Spence, J. R. and Stanley, D. J.Failing grade: 89% ofintroduction-to-psychology textbooks that defineor explain statistical significance do so incorrectly, Advances in Methodsand Practices in Psychological Science, 2(3) (2019), pp. 233-9. https://doi.org/10.1177/2515245919858072
[6] Haller, H. and Kraus, S., Misinterpretations of signifcance: A problemstudents share with their teachers?, Methods of Psychological Research, 7(1)(2002),pp.1-20.
[7] Cassidy et al., 2019.
[8] Brian Wansink, “The grad student who never said “No”, 2016, archived at https://web.archive.org/web/20170312041524/http:/www.brianwansink.comphd-advice/the-grad-student-who-never-said-no
[9] Stephanie M.Lee, Here’s how Cornell scientist Brian Wansink turnedshoddy data into viral studies about how we eat, BuzzFeed News, 2018. https://wwwbuzzfeednews.com/article/stephaniemlee/brian-wansink.cornell-p-hacking
[10] Ibid.
作者/譯者簡介
作者簡介
湯姆·芝華士(Tom Chivers),科學作家,曾供職於《每日電訊報》、BuzzFeed等媒體,2018年起為自由職業者。2018年獲英國皇家統計學會“新聞‘統計性’優異獎”。2017年獲美國心理學會(APA)媒體獎,並列入英國科學作者獎、英國科學寫作新聞獎短名單。
大衞·芝華士(David Chivers),英國杜倫大學商學院經濟學副教授,曾任牛津大學講師。在優秀學術期刊上多有發表。研究領域包括不平等、增長和發展等。
譯者簡介:
鄧妍,心理學碩士,數學、經濟學與統計學綜合學科碩士。曾任投資分析師。為知名媒體擔任專職翻譯多年。現從事筆譯和心理諮詢工作。
本文經授權節選自《數字一點不老實》(九州出版社·理想國,2023年11月)第五章《統計顯著性:更確定不等於更重要》。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權説明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯繫後台。