九成以上研究者或無法正確理解p值_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!06-17 10:46
如果統計推斷的儀式化操作不被打破,研究者沒有良好的統計思維,那麼,換掉p值,“與時俱進”的新問題還是會不斷出現。
撰文 | 許嶽培(中國科學院心理研究所,中國科學院行為科學重點實驗室)、呂小康(南開大學周恩來政府管理學院社會心理學系,南開大學計算社會科學實驗室)、胡傳鵬(德國萊布尼茨心理韌性研究中心(Leibniz Institute for Resilience Research))
儘管近年來統計推斷領域一直人才與工具迭出,但原假設顯著性檢驗(Null Hypothesis Significance Testing, NHST)仍是20世紀後半葉以來最為流行的統計推論模式。一項針對Science、Nature和PNAS三本頂級雜誌的調查表明,在過去的20年,出現在三本雜誌中的圖表仍然高度依賴、且越來越依賴於p值(Cristea & Ioannidis, 2018)。但是,如此常用的p值在統計學界和科學界其實褒貶不一。原因不外乎兩點:1)從統計原理的角度上,p值能夠反映的信息與數據所代表的實際信息存在較大差別;2)從研究者使用的角度上,p值的構造理念和解讀方式本身不容易理解,具有認知上的誤導性。如何正確地使用與解讀p值,遂成為一個“一直在討論、從未被解決”的問題。
天下苦p值久矣?
與NHST的流行相伴的,是過於強調統計顯著性來區分實驗效應是否存在的理念。這可能使得研究者一直糾結於自己研究的p值是否小於0.05,從而造成所謂的p值操縱(p-hacking)、發表偏見(publication bias)等一系列負面現象。但事實上,相比統計顯著性或是p值是否小於0.05,對於研究本身而言,還有更為重要的指標,包括但不限於置信區間(Confidence Interval,CI)、統計效力(power)、效應量(effect size)等等。況且,p值會因研究設計和操作的不同自然而然地存在一定差異,這就意味着在不同的實驗中p值本就沒有可比性。
鑑於以上種種理由,執科學發表之牛耳的自然雜誌(Nature)於2018年發表了一篇800多位科學家聯合署名的評論文章,反對濫用統計顯著性。在該評論文章中,揭竿而起的科學家們呼籲擯棄掉根據“統計顯著” vs “統計不顯著”,即所謂的“統計顯著性”來得出結論的二分思維(www.nature.com/articles/d41586-019-00857-9)。
Nature上發表的聯名評論:“讓統計顯著性退休!”
另外,更早一些時候,2016年美國統計學會(American Statistical Association,ASA)其實也曾就統計檢驗及p值的相關問題發出過官方聲明。聲明明確指出了p值的含義、使用規範及其侷限——p值不可表示原假設成立的概率;不應僅依靠p值得出研究結果;應完整報告p值及其實驗條件、不應選擇性報告p值;p值不可表示研究效應的大小或重要性;p值本身不可用以評判假設或模型的好壞。
但除了這些和p值所依賴的原假設檢驗原理直接相關的侷限外,還有一個可能更為嚴重的問題——原假設檢驗和p值本身作為一種統計工具“僅有侷限、並無過錯”,但使用者的濫用和誤用,使得原假設檢驗和p值成為了被批判的靶子。這就涉及前面提及的p值的第二個問題:在認知層面,p值本身就容易遭到誤解。
無論是Nature上800名科學家倡導的廢棄統計顯著性,還是ASA呼籲的規範使用p值,亦或是其他關於p值的熱烈討論(例如:Benjamin等在2017提出的將統計顯著的p值閾限下調至.005;以Basic and Applied Social Psychology等期刊為代表所主張的“罷黜”所有依靠p值的研究),其核心議題均是如何正確理解及正確使用p值或CI(置信區間)。
到底如何正確理解p值?
2014年2月,ASA論壇上曾出現過一位美國統計學教授的疑問:
“為什麼大學和研究院在教p<.05的規則 —— 因為科學界和雜誌都在用。”
“那為什麼科學界和雜誌都在用p<.05的規則 —— 大學和研究院在教。”
短短的兩句話,道出目前科學界p值使用和教育過程的死循環。一方面,雜誌編輯和科學界對p值的推崇使得基於p < .05得出一個“顯著”結論成了幾乎每一位學生和科研人員的必修課;另一方面,經受了該必修課洗禮的學生理所應該地在論文中一次又一次地使用p < .05,使得科學界和雜誌編輯進一步加深了對p值的依賴。但是,這樣的封閉循環顯然並不利於統計推斷理念的更新——接二連三的研究已經充分表明一個事實:想要正確理解p值並非易事。
早在1986年,Oakes (1986) 針對心理系師生的調查就表明,僅有3%的受訪者對p值做出了正確解讀。2002年,Haller和Krauss的調查表明,教授方法學的教師對p值的誤解率也高達80%,心理系學生更是全軍覆沒,無一能夠準確解讀p值。近十年,又有研究者對心理學研究者進行了關於p值解讀的調查(Badenes-Ribera, Frias-Navarro, Iotti, Bonilla-Campos, & Longobardi, 2016; Badenes-Ribera, Frías-Navarro, Monterde-i-Bort, & Pascual-Soler, 2015; Lyu, Peng, & Hu, 2018; 胡傳鵬等, 2016),但結果均表明:大部分研究者無法正確解讀p值。大家學習到的似乎只有如何獲取p值的 “套路” ,而並非藴含在p值背後的深層邏輯和統計學意義。
值得一提的是,一度被認為是p值濫用之解藥——基於估計的統計指標置信區間CI,也沒有逃過被套路的命運。2014年,Psychonomic Bulletin & Review刊文報告了562名心理學研究者和學生對CI的理解情況,結果表明,僅有11名受訪者正確解讀了CI。幾年以來,又有多項研究針對CI的解讀進行調查(Greenland et al., 2016; Lyu et al., 2018; Morey, Hoekstra, Rouder, & Wagenmakers, 2016),結果也一致表明:大部分研究者無法正確解讀CI。
對此,德國馬克斯-普朗克研究所的吉仁澤(Gerd Gigerenzer)教授將這樣的統計操作稱為“無腦的統計”(Mindless Statistics)——許多研究者只是學到了統計推斷的“套路”,即:建立零假設、依據p值接受/拒絕假設、如此循環往復,而沒有真正理解統計推斷的思維。
現在我們還做“無腦的統計”嗎?
距離1986年Oakes發出的第一份p值問卷已經過去了三十餘年,研究者及學生們對p值和CI的解讀情況是否有所好轉?特別地,向來以基礎數學訓練功底和統計計算功力為傲的中國研究者,能夠濯清漣而不妖地獨善其身嗎?
答案似乎是否定的。
從2017年9月到2018年11月,我們利用Oakes等人的針對p值和CI的問卷再一次重複了該研究。不同的是,這次調查中,我們聯繫了“知識分子”“科學人”“統計之都”“定量羣學”“我愛腦科學網”等多家科學類公眾號,將調查的學科規模擴大到了社會科學、醫學、理學、工學、農學、經濟學、以及數學/統計學等背景的1479名受訪者,而不是僅限於心理學受訪者。所有受訪者均系統學習了假設檢驗的相關課程(如概率論與數理統計、心理與教育統計學、管理統計學等)。
我們使用的問卷中設立了一個採用獨立樣本t檢驗比較兩組均值差異的研究場景,統計結果為p = .008,受訪者根據這一p值對“你已證實原假設是錯的”“你發現了原假設為真的概率”等四句陳述進行正誤判斷;類似地,CI部分,我們給出了兩組均值差的95%CI為 [0.1, 0.4],並讓受訪者對“真實均值差/總體均差有95%的概率落在0.1和0.4之間”等四句陳述進行正誤判斷。(在原問卷中我們還設置了非顯著情景,即p = 0.21,CI [‒0.1,0.4]的場景,但研究未發現顯著性對解讀的影響,具體分析在此不做贅述。問卷題目均來自公開發表的文獻,具體參見文末原文。)
本次調查的結果仍與前人的研究保持高度一致:平均而言,有89%的受訪者錯誤解讀了p值,有93%的受訪者錯誤解讀了CI;所有學科背景的受訪者,包括數學/統計學背景的大部分研究者、學生均無法完全正確解讀p值和CI。下圖展示了不同學位、學科背景、最高學位獲得地受訪者對p值和CI解讀的錯誤率。
不同學位、學科背景、最高學位獲得地受訪者對p值和CI解讀的錯誤率
更尷尬的是,受訪者對自己的回答似乎還挺“有信心”。當自評自己回答的信心程度時,受訪者對各道題的平均信心程度均超3.8分(五級李克特量表,分數越大越自信),見下圖。另外,我們發現最高學位獲得地為海外或港澳台的研究者或學生,對p值的誤解似乎要(統計上顯著地)少於最高學位獲得地是中國內地的研究者或學生(p值:84% vs 90%;CI:89% vs 93%),儘量兩者同樣擁有相當高的誤解率。
每道題的錯誤率及信心程度(左圖a為p值,右圖b為CI)
如吉仁澤所言,很大一部分的統計推斷工作遵循了這樣的儀式化套路:
步驟1: 建立零假設;
步驟2:報告p值,接受、拒接假設;
步驟3:一遍又一遍地重複步驟1和2。
這樣的套路容易使人們陷於不求甚解而又過於自信的危機中:只知道小於0.05的p值是好的,只知道遠離0的CI是好的,而不明白p值和CI到底意味着什麼。要打破這樣的現狀,最好的做法就是學習一套系統完整的統計方法(a set of statistical toolbox),而不是繼續延續以往儀式化的統計推斷套路傳授。另外,對於海外學位獲得者的誤解率較少,可能的解釋是海外媒體對於這個話題的討論相較國內更為“火熱”,從而達到了部分“脱敏”的效果,這可能也從一個側面反應出我們這類調查的作用所在。
這裏要嚴正申明:“揭發”學界存在的問題,目的是為了讓大家充分地瞭解當前科研者的統計推斷之現狀,以期研究工作者能夠注意到當前的問題,更加重視正確地使用p值,而非將其當作一種把數據“昇華”為“科學發現”的儀式。我們的研究屬於最近正在慢慢興起的“元研究(meta-science, or science of science)的範圍,對研究行為進行研究,以其更合理地進行科學探索。類似的,也有研究者去調查了北美心理學教科書中關於“統計顯著性”的解釋,在30本教科書裏,發現有25本對這個概念的解釋是包含了某些錯誤的(Cassidy, Dimova, Giguère, Spence, & Stanley, 2019)。
我們衷心地期待,在不久的將來,科學界的統計推斷指標不斷地走向多元化。但如果這種統計推斷的儀式化操作不被打破,研究者沒有良好的統計思維,就無法保證在將來是否會出現諸如現在已經開始流行基於貝葉斯因子(Bayesian Factor,BF)的“貝葉斯因子操縱(BF-hacking)”、基於BF > 3.0的發表偏見等其他“與時俱進”的新問題出現。我們的研究僅是針對p值和CI進行了調查,也有研究者已經發現,其他常用的統計指標如克隆巴赫alpha係數的理解也不容樂觀 (Hoekstra, Vugteveen, Warrens, & Kruyen, 2019)。那麼對於其他尚未進行過調查的統計指標,如效應量、貝葉斯因子,研究者是否也存在很深的誤解?這一點目前仍無從得知。事實上,在本次研究中,研究者對BF的誤解已經初露端倪。例如,有部分研究者聲稱瞭解頻率學派和貝葉斯學派的區別,但卻無法正確回答p值是哪一個學派的統計指標。
總之,公開本次調查的結果,目的是讓大家真正重視如何正確解讀p值和CI這個問題。對於不少方法學研究者而言,對於p值與CI的理解似乎是常識。遺憾的是,現實中有很多本來應當是常識的聲音,卻需要不斷的重複才能成為常識。這可能是一個真正需要重視的大眾心理學問題,也是一值得科學共同體的反思的問題。
錯誤解讀分析:
對p值、CI錯誤解讀的解析
論文信息:
Lyu, X.-K., Xu, Y., Zhao, X.-F., Zuo, X.-N., & Hu, C.-P. (2020).Beyond psychology: prevalence of p value and confidence interval misinterpretation across different fields.Journal of Pacific Rim Psychology, 14, e6. doi:10.1017/prp.2019.28
鏈接:https://doi.org/10.1017/prp.2019.28
致謝:
特別感謝“知識分子”“果殼科學人”“統計之都”“科研圈”“我愛腦科學網”“定量羣學”對我們研究工作的大力支持,感謝各位參與問卷的同行!
推薦閲讀
[1] 陳希孺. (2002). 數理統計學簡史. 長沙: 湖南教育出版社.
[2] 戴維·薩爾斯伯格. (2016). 女士品茶:統計學如何變革了科學和生活, 劉清山譯. 南昌: 江西人民出版社.
[3] 呂小康. (2014). 從工具到範式: 假設檢驗爭議的知識社會學反思. 社會, 34 (6), 216–236.
[4] Lehmann, E. (2011). Fisher, Neyman, and the Creation of Classical Statistics. New York: Springer.
[5] Berger, J. (2003). Could Fisher, Jeffreys and Neyman Have Agreed on Testing? Statistical Science, 18(1), 1–31.
[6] Ziliak, S. and D. McCloskey. 2008. The Cult of Statistical Significance. Ann Arbor, MI: University of Michigan Press.
推薦在線資源
[1] Nature的在線統計論文合集Statistics for Biologists:
https://www.nature.com/collections/qghhqm/pointsofsignificance
[2] Daniel Lakens 在coursera的課程《Improve your statistical inference》:
https://www.coursera.org/learn/statistical-inferences
參考文獻
[1] Amrhein, V., Greenland, S., & McShane,B. (2019). Scientists rise up against statistical significance. Nature,567, 305-307. doi:10.1038/d41586-019-00857-9
[2] Badenes-Ribera, L.,Frias-Navarro, D., Iotti, B., Bonilla-Campos, A., & Longobardi, C. (2016).Misconceptions of thep-value among Chilean and Italian AcademicPsychologists. Frontiers inPsychology, 7, 1247. doi:10.3389/fpsyg.2016.01247
[3] Badenes-Ribera, L.,Frías-Navarro, D., Monterde-i-Bort, H., & Pascual-Soler, M. (2015). Interpretationof the p value: A national survey study in academic psychologists fromSpain. Psicothema,27(3), 290-295. doi:10.7334/psicothema2014.283
[4] Cassidy, S. A.,Dimova, R., Giguère, B., Spence, J. R., & Stanley, D. J. (2019). FailingGrade: 89% of Introduction-to-Psychology Textbooks That Define or ExplainStatistical Significance Do So Incorrectly. Advances inMethods and Practices in Psychological Science. doi:10.1177/2515245919858072
[5] Cristea, I. A.,& Ioannidis, J. P. A. (2018). P values in display items are ubiquitous andalmost invariably significant: A survey of top science journals. PLoS One, 13(5), e0197440. doi:10.1371/journal.pone.0197440
[6] Greenland, S.,Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman,D. G. (2016). Statistical tests, P values, confidence intervals, and power: aguide to misinterpretations. EuropeanJournal of Epidemiology, 31(4), 337-350. doi:10.1007/s10654-016-0149-3
[7] Haller, H., &Krauss, S. (2002). Misinterpretations of significance : A problem studentsshare with their teachers? Methods ofPsychological Research, 7, 1-20. doi:Retrievedfrom
[8] https://www.metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
[9] Hoekstra, R.,Vugteveen, J., Warrens, M. J., & Kruyen, P. M. (2019). An empiricalanalysis of alleged misunderstandings of coefficient alpha. InternationalJournal of Social Research Methodology, 22(4),351-364. doi:10.1080/13645579.2018.1547523
[10] Lyu, Z., Peng, K.,& Hu, C.-P. (2018). P-Value, Confidence Intervals, and StatisticalInference: A New Dataset of Misinterpretation. Frontiers inPsychology, 9(868). doi:10.3389/fpsyg.2018.00868
[11] Morey, R. D.,Hoekstra, R., Rouder, J. N., & Wagenmakers, E.-J. (2016). Continuedmisinterpretation of confidence intervals: response to Miller and Ulrich. PsychonomicBulletin & Review, 23(1), 131-140. doi:10.3758/s13423-015-0955-8
[12] 胡傳鵬, 王非, 過繼成思, 宋夢迪, 隋潔, 彭凱平. (2016). 心理學研究中的可重複性問題:從危機到契機. 心理科學進展, 24(9), 1504-1518.
本文經授權轉載自微信公眾號“OpenScience”,有修訂。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。