被操縱的P值:科學論文中的數學胡扯丨展卷_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!2022-04-17 10:09
在零假設顯著性檢驗中,p值是在假設零假設正確的情況下,獲得檢驗結果至少至少與實際觀測樣本相同極端的樣本的概率。學術研究中,研究人員習慣用p值衡量實驗數據的可靠性。當p值小於0.05時,意味着僅因偶然性產生的概率小於5%時,結果具有統計顯著性。但是,古德哈特定律指出當指標變成目標後,就不再是一個好的指標。P值就有這樣的特點,許多研究中的p值並不可靠,甚至是被操縱的結果。
本文經授權轉載自《拆穿數據胡扯》(中信出版社,2022.3),標題為編者所加。前往“返樸”公眾號,點擊文末“閲讀原文”可購買此書。點擊“在看”並發表您的感想至留言區,截至4月23日我們會選出兩條留言,各贈書一本。
今日微博福利,關注@返樸 ,轉發本微博並@ 一名好友 ,截至4月23日,我們將抽取1位粉絲贈送《拆穿數據胡扯》(中信出版社,2022.3)一本。
撰文丨卡爾·伯格斯特龍(Carl T. Bergstrom)(美國華盛頓大學生物系教授)、傑文·韋斯特(Jevin D. West)(美國華盛頓大學信息學院副教授)
翻譯丨胡小鋭
最後,我要對大家提出一個一般性的忠告:想一想追求知識的真正目的是什麼;追求知識不是為了心靈的快樂,不是為了爭論,不是為了比別人優越,也不是為了利益、名譽、權力或任何這些不重要的東西,而是為了改善生活,為生活所用;用仁愛來完善和管理它。
——弗朗西斯·培根
儘管科學家往往有強烈的好奇心,熱衷於解決難題,但他們在大多數方面和其他人一樣,都在努力賺錢,都想在同行中出人頭地。我們從事科研是希望瞭解世界如何運轉,但我們也想要給我們的朋友和同事留下深刻印象,贏得下一次晉升,並且(如果一切非常順利) 在《每日秀》或《上週今夜秀》中當一次嘉賓,出一回風頭。科學家既尋求真理,也希望得到認可。具體來説,科學家希望人們認可自己是做出某個發現的第一人。這在科學上被稱為優先規則。
科學家建立聲譽的方法是通過科學論文公開自己的發現,論文的篇幅在2~50 頁,得出的結果必須新穎、重要、完整而且正確。論文應該描述以前沒有報告過的實驗或觀察結果。論文報告的成果必須告訴我們一些關於這個世界的、之前不為我們所知的東西——即使作者僅僅是鞏固加強了之前的觀點,也表明他們實現了這一目的。論文必須與正在進行但已經被認為令科研界感興趣的研究問題密切相關, 或者令人信服地證明某個新的研究問題具有重要意義。為了完整,論文必須足夠詳細地描述實驗或其他工作,以便該領域的其他專家能夠重現這些發現。顯然,一篇論文不能誤報謊報,不能做毫無根據的推斷,也不能提出錯誤論斷。最後,論文的長度必須適中。這是一個慣例問題,在不同領域會有所不同,但它與出版物對研究範圍的要求有關。在實驗室裏一個下午的研究是不足以寫一篇論文的,但數年努力取得的成果通常會被分拆成一系列文章。
純理論科學依靠同行評議維護這些標準。當作者希望發表論文時,他/她會將其提交給科學期刊。然後,期刊工作人員將這篇未發表的文章發給審稿人。審稿人的人數不多,都是自願閲讀這篇論文、評估其質量並提出改進建議的其他科學家。期刊的聲望有高有低,各不相同。在主要期刊上發表的論文比其他論文更有聲望。最優秀的期刊通常會廣為傳播,有眾多的讀者,在質量和重要性這兩個方面對待發表文章設定了非常高的標準。其他期刊的讀者羣較小,被最優秀期刊拒絕的論文常常可以被這些期刊接受。甚至還有一種質量非常低的期刊,它們會發表幾乎任何論文,通常是有償的。
在工業科學領域,科學家的過程和成果都受到嚴密的保護。與之不同的是,純理論科學家通常都競相發表自己的研究成果,在推特和臉書上博取關注,並在會議上爭先發言。獎勵聲望而不是獎勵直接輸出,是讓廣大的研究人員開展高校合作、減少重複勞動的一個妙招。
其他研究人員無法復現的成果很快就會被推翻。因為我們對世界的科學理解有可能隨着新的證據出現而改變,所以科學已經證明,在偶爾走錯方向時,甚至在出現科學欺詐形式的故意誤導時,它都有回到正軌的能力。
21 世紀初,無法復證這個問題出人意料地在許多領域頻頻出現。偶爾有一兩個問題是由於欺詐或能力不足造成的,但大多數問題都無法用一兩句話加以解釋。一些受人尊敬的研究人員取得的腳踏實地的成果也無法復現。我們最信任的科學是不是在無意中大規模製造胡扯呢?如果是,又是為什麼呢?
很多原因可能導致科學結果無法復現,其中最明顯的原因或許就是赤裸裸的欺騙。如果研究人員偽造了數據,我們就不能指望可以復證他們的實驗了。欺騙行為會引起公眾的廣泛關注,如果頻頻發生,就有可能給人留下一種錯誤的印象。不過,公然欺騙的行為比較罕見。這也許可以解釋為什麼只有千分之一的研究無法復證,但不能解釋為什麼實地取得的實驗結果有一半不可復現。那麼,我們如何解釋復證危機呢?為了回答這個問題,我們不妨繞個彎子,看看一個被稱為p值的統計量。
p值操縱
我們經常用0.05作為p值的臨界值(純粹是因為這是慣例),表示一個結果在統計學上具有顯著性。換句話説,當p < 0.05 時,即僅因偶然性產生的概率小於5%時,結果具有統計顯著性。
研究人員更有興趣閲讀那些報告有統計意義的“陽性”結果,而不是無意義的“陰性”結果的文章,因此作者和期刊都強烈希望呈現有意義的結果。為什麼研究人員和期刊對陰性結果不感興趣呢?我們還不完全清楚,但有很多可能的原因,其中一些可能與我們自己的心理有關。對我們大多數人來説,陰性結果有點兒令人厭煩。“這兩組人沒有區別。”“這種治療不會改變結果。”“知道x不能幫助我們預測y。”讀到這樣的句子,我們會覺得又回到了起點,一無所獲。
陰性結果也可能與無法進行技術實驗有關。卡爾在微生物實驗室從事研究時,經常不能在瓊脂平皿上培養出他研究的微生物大腸桿菌。這不是一個有趣的科學結果,而是證明了他在實驗室環境中能力嚴重不足。
第三種可能是否定命題比比皆是。陳述一個不正確的假設很容易。把單詞隨意組合成句子,它們通常都是錯誤的,例如:“鬱金香咬。”“雪花融化鐵。”“大象是鳥。”在海量假命題中尋找真命題,無異於大海撈針。就像古老的棋類遊戲《戰艦》一樣。棋盤上的大部分空間都是開放水域,因此,如果沒打中,就學不到很多東西。但是一旦擊中,就會學到很多東西——以此為基礎,還可以學到更多。
出於所有這些原因,陰性結果不會得到大量的關注。我們從來沒有見過一個人僅僅因為大談她在實驗室裏做不到的事情而獲得一份工作或贏得某個獎項。
科學家幾乎都不會為了得到想要的p 值而進行科學欺詐,但仍有很多不易界定的破壞科學過程誠實性的行為。研究人員有時會嘗試不同的統計假設或測試,直到他們找到一種方法,可以讓他們的p 值跨過具有統計學意義的臨界值p = 0.05。這就是所謂的p 值操縱,是一個十分嚴重的問題。有時他們會修改測試取得的結果。一項臨牀試驗本來是要測量某種新藥對5 年存活率的影響,但在沒有存活率發現任何變化後,研究人員可能會挖掘數據,找出3 年後患者生活質量明顯改善的地方。
我們在分析所收集的數據時,經常需要做出大量的選擇,確定我們的研究到底應該包括哪些內容。例如,假設我想研究選舉結果對美國止痛藥的消費有什麼影響,我可能會將選舉結果製成表格,收集止痛藥使用情況的調查報告,並獲取止痛藥在一段時間內的銷售數據。這裏有很多自由度。我看什麼選舉呢?美國總統、參議員、眾議員、州長、州參議員、州眾議員、市長、市議員選舉,還是別的?關於消費情況,我看男性還是女性,還是兩者都看?看年輕人、中年人、65 歲以上的人、青少年,還是所有這些人的消費情況?我觀察的是新上任的民主黨候選人的影響力,還是新上任的共和黨候選人的影響力?我觀察的是被人看好的候選人上任造成的影響,還是不被看好的候選人上任造成的影響?換句話説,我需要控制止痛藥使用者的政治立場嗎?什麼才算是止痛藥呢?阿司匹林、艾德維爾、泰諾、氫可酮、奧施康定,這些算不算止痛藥?我是要比較同一個地方在選舉前後的止痛藥使用情況,還是隻比較選舉後不同地方的使用情況?在分析數據之前,我需要做大量的決定。考慮到這麼多的組合,即使選舉結果和止痛藥的使用之間沒有因果關係,這些組合中也很有可能至少有一個組合會顯示出有統計顯著性的結果。
為了避開這個陷阱,研究人員應該在查看數據之前明確説明所有這些選擇,然後測試他們事先承諾的那個假設。例如,我有可能決定測試那些達到投票年齡的成年男性和女性,看看他們是否會在看好的州長候選人選舉失敗後服用更多的止痛藥。或者,我可能會測試在共和黨人取代民主黨人當選美國眾議院議員的那些地區,看看兒童用泰諾的銷量是否會下降。無論我選擇看什麼,重要的是我在分析數據之前就做出明確説明。否則,通過觀察足夠多的不同假設,我總會得到一些有顯著性的結果,即使我找不到真正的模式。
但是,我們不妨從研究者的角度看一看。假設你剛剛花了幾個月的時間,收集了大量數據。你測試了你的主要假設,最終得到了一些看上去有希望但不具有顯著性的結果。你知道,就這樣保持不變的話,不要説優秀期刊,甚至其他所有期刊都不會發表你的研究成果。但你認為你的假設肯定是成立的,也許只是沒有足夠的數據支撐。所以你繼續收集數據,直到你的p 值降到0.05 以下,然後你立即停止收集數據,以免它變回到閾值以上。
或者你可以嘗試一些其他的統計測試。由於數據接近顯著性, 選擇正確的測量方法和測試,也許能讓你跨過p = 0.05 這道關卡。當然,稍加修改,你就找到了一種能給你帶來顯著結果的方法。
或者你的假設似乎只對男性成立,而有統計意義的模式被包含在你的樣本里的女性淹沒了。你一看,哎呀,如果只看男性,你會得到一個有統計顯著性的結果。怎麼辦?放棄整個項目,放棄數千美元的投資,讓你的研究生再推遲6個月畢業……還是隻記錄男性的研究結果,然後提交給優秀期刊?在這些情況下,為選擇後一種做法找一個理由似乎並不是那麼難。你可能會對自己説:“我確信這種趨勢確實存在。我從一開始就在考慮將女性排除在研究之外。”
祝賀你。你成功地對你的研究進行了p 值操縱。
假設有1000名在誠實性方面無可挑剔的研究人員,他們在任何情況下都會拒絕p 值操縱。這些品德高尚的學者測試了上千個關於政治上取得的勝利和止痛藥的使用之間是否存在關係的假設,但所有這些假設都是不成立的。在p = 0.05 這個水平上,單憑碰運氣,這些假設中就有大概50 個假設會找到統計學上的支持。這50 名幸運的研究人員將研究結果寫下來,發給期刊,然後被期刊接受並發表。在其餘950 名研究人員中,只有少數人會不辭辛苦地寫下他們的陰性結果,其中只有幾個人能夠發表他們的陰性結果。
讀者查閲文獻時,會看到有50項研究表明政治結果和止痛藥消費之間存在聯繫,也許還有為數不多的研究稱沒有發現任何聯繫。讀者會很自然地得出結論:政治對止痛藥的使用有很大的影響,而那些失敗的研究肯定是測量了錯誤的量,或者是在尋找模式時出了問題。但現實恰恰相反,兩者之間沒有關係。之所以看起來有關係,純粹是人為因素導致的——哪些結果值得發表是由人決定的。
本質上講,問題在於論文是否有發表的機會受它所報告的p 值影響。因此,我們一頭撞上了選擇偏倚的問題。得以發表的那些論文是全部實驗的一個有偏差的樣本。在文獻中,有統計意義的結果被過度表現,而沒有統計意義的結果則表現不足。沒有產生顯著性結果的實驗數據最終被科學家扔進文件櫃裏(現在則是被扔進文件系統中)。這就是所謂的抽屜問題(file drawer effect)。
還記得古德哈特定律嗎?“指標變成目標後,就不再是一個好的指標。”從某種意義上説,p 值就具有這個特點。因為p 值低於0.05 對於論文發表來説是必不可少的,所以p 值不再是衡量統計支持的好指標。如果科學論文是否發表與p 值無關,那麼p 值仍將是一個有效指標,可以衡量推翻原假設時得到統計支持的程度。但是,由於期刊明顯偏好那些p 值低於0.05 的論文,因此p 值已經失去了原先具有的用途。
2005 年,流行病學家約翰·約阿尼迪斯在一篇文章中總結了抽屜問題的後果,這篇文章的標題頗有挑釁性:“為什麼發表的研究成果大多是虛假的”。為了解釋約阿尼迪斯的觀點,我們需要稍微偏離主題,探究一個被稱為基率謬誤的統計陷阱。
基率謬誤
假設你是醫生,正在治療一位擔心自己去緬因州釣魚時染上萊姆病的年輕人。釣魚歸來以後,他感覺很不舒服,但沒有萊姆病特有的環形紅斑。為了讓他放心,你同意檢查他的血液中是否有萊姆病致病菌抗體。
令你們沮喪的是,測試結果呈陽性。測試本身相當準確,但也不是100%的準確,有5%的概率出現假陽性。那麼,病人患萊姆病的概率有多大呢?
許多人,包括許多醫生,都認為答案是大約95%。這是不正確的。沒有萊姆病的人檢測呈陰性的概率是95%,而你想知道的是檢測結果呈陽性的人患萊姆病的概率。事實證明,這個概率很低,因為萊姆病非常罕見。在萊姆病流行的地區,每1000人中只有1人被感染。假設我們檢測1 萬人,那麼可以預計有大約10個真陽性和大約0.05×10 000= 500個假陽性。在那些檢測呈陽性的人中,只有不到1/50 的人真的被感染了。因此,即使檢測呈陽性,患病概率也不會超過2%。
這種混淆(以為病人有95%的概率被感染,而實際上不到2%) 應該是一個常見的錯誤。這其實是我們的“老朋友”檢察官謬誤,不過它換了一種表現形式。我們有時稱其為基率謬誤,因為在解釋測試結果時,忽略了羣體中患這種疾病的基礎比率。
如果測試的是一種非常常見的情況,那麼基率謬誤不是什麼大問題。假設你在為一位來自美國上中西部地區的年輕白人女性治療胃病時,決定檢查她是否有幽門螺桿菌感染。幽門螺桿菌是一種與消化性潰瘍有關的胃病病原體。與萊姆病的抗體檢測一樣,約5%未感染者的尿素呼氣試驗結果呈陽性。如果你的病人檢測呈陽性,那麼她攜帶幽門螺桿菌的可能性有多大呢?也是1/50 嗎?不對,這次的可能性要大得多,因為幽門螺桿菌是一種常見病原體。在美國,大約20%的白種人攜帶幽門螺桿菌。假設有1萬人接受這種病原體的檢測,那麼你會看到大約2000個真陽性結果,剩下的8000人中,這個概率大約為5%,也就是大約400人會得到假陽性結果。因此,在幽門螺桿菌檢測呈陽性的美國白種人中,大約5/6 的人真的攜帶這種病菌。
發表偏倚
説完這些,我們繼續討論約阿尼迪斯的觀點。在“為什麼發表的研究成果大多是虛假的”這篇論文中,約阿尼迪斯對科學研究和醫學檢測結果解釋進行了類比。他認為,由於發表偏倚,大多數陰性研究結果都沒有發表,因此我們在文獻中看到的大多是陽性結果。如果科學家測試的是不可能的假設,那麼大多數陽性結果應該都是假陽性,這就好像萊姆病檢測結果——如果沒有其他風險因素,陽性檢測結果大多是假陽性。
沒錯兒,約阿尼迪斯就是這樣想的。他的數學計算無可爭論。從他的模型來看,他的結論也是正確的。他還可以從我們之前討論過的論文中得到一定的經驗支持:那些論文表明,許多發表在優秀期刊上的實驗是無法復證的。如果這些實驗的許多陽性結果都是假陽性,就正好符合我們的預料。
值得商榷的是約阿尼迪斯的假設。要使大多數發表的成果都是錯誤的,科學實驗就必須像罕見疾病一樣:極不可能產生真陽性結果。但科學與罕見疾病不同,因為科學家可以選擇他們想要驗證的假設。我們已經看到,科學家很好地適應了所在專業領域的酬償結構:獲得酬勞的主要途徑是發表有意義的研究成果,而陰性結果很難發表。因此,我們可以預料科學家測試的假設雖然尚未確定,但有合理的可能性是成立的。這讓我們想到幽門螺桿菌的例子,大多數的陽性結果都是真陽性。約阿尼迪斯是過於悲觀了,因為他對研究人員決定檢驗的各種假設做出了不符合實情的假設。
當然,這都是理論上的猜測。如果我們真的想衡量發表偏倚的嚴重性,就需要知道:1)被測試的假設中有多大比例是正確的,2)有多大比例的陰性結果被髮表了。如果兩個比例都很高,我們就不用擔心。如果兩者都很低,那就有問題了。
我們曾説,科學家傾向於測試那些大概率是正確的假設。這種大概率可能是10%、50%或75%,但不太可能是1%或0.1%。那發表陰性結果這個方面呢?發表得多嗎?在整個科學領域,發表的研究結果中大約有15%是陰性。在生物醫學領域,這個比例是10%。在社會心理學領域,這個比例僅為5%。問題是,我們無法從這些數據中得知,這到底是因為心理學家更不可能發表陰性結果,還是因為他們選擇了更有可能產生陽性結果的實驗。我們真正想知道的不是陰性結果在發表的結果中佔的比例,而是陰性結果被髮表的比例。
但是,如何才能知道這個比例呢?我們必須想辦法調查所有未發表的實驗結果,但這些結果往往被扔進了抽屜裏。美國食品藥品監督管理局(FDA)的埃裏克·特納找到了一個巧妙的方法來解決這個問題。美國的法律規定,任何研究團隊,只要進行臨牀試驗(用人作為實驗對象來測試治療結果的試驗),都必須向FDA 登記報備,提交文件並解釋試驗是要測試什麼,試驗將如何進行,以及結果如何測量。一旦試驗完成,團隊還需要向FDA 報告試驗結果。不過,他們並沒有被要求必須在科學期刊上發表研究結果。
這個制度為特納和同事們統計某一特定研究領域已發表和未發表試驗提供了便利。特納列出了74 個評估12 種不同抗抑鬱藥物療效的臨牀試驗,其中51 個試驗的結果已經發表,包括48 個陽性結果(藥物有效)和3個陰性結果。看到這些已發表的文獻後,任何一名研究人員都會認為這些抗抑鬱藥物通常是有效的。但在調查最初登記的所有實驗後,FDA發現情況並不是人們預想的那樣。一共74個試驗,其中38 個產生了陽性結果,12 個產生了可疑結果,24個產生了陰性結果。看到這些數字,我們有可能得出一個更悲觀的結論:似乎只有一部分抗抑鬱藥物在某些情況下可以起到一定作用。
這是怎麼回事?為什麼成功率為51% 的臨牀試驗,最終在94% 的發表論文中被報告為成功呢?一個原因是,幾乎所有的陽性結果都被髮表了,而可疑或陰性結果中只有不到1/2被髮表。另一個也是更重要的原因是,在已發表的14 個可疑或陰性結果中,有11 個被重新定義為陽性結果。
就像水手只能看到冰山露出水面的部分一樣,研究人員在科學文獻中只能看到陽性結果。因此,我們很難知道水底下有多少陰性結果。它們很難發表,即使得以發表,也常常被偽裝成陽性結果。如果藏在水下的結果不多,那麼我們強烈支持被測試的任何結果。但是, 如果只能看到表面上的那些結果,而水底下還有大量的結果我們無法看到,我們就有可能受到嚴重誤導。
幸運的是,有一些方法可以估計水面下的冰山大小。元分析(同時查看多項研究)就是最有效的方法之一。通過元分析,我們就可以知道發表的文獻是否可能代表所有的試驗,知道它們是否反映了一些有問題的行為,比如p 值操縱、發表偏倚。如何有效地做到這一點,已經成為統計學研究的一個熱門領域。
↓↓點擊下圖或左下角“閲讀原文“購買↓↓
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權説明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯繫後台。