你瞭解的心理學知識,有多少靠得住_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!05-29 09:39
不要全盤相信任何單個的研究成果。最好的態度是:挺有趣的,先記着,再看看。
看什麼?
看研究是怎麼做的,看研究的進展和全貌——那正是優質科普所應當努力提供的內容。
撰文 | 向睿洋(阿姆斯特丹自由大學心理學碩士)
你可能經常從各種書籍、媒體看到一些心理學科普,介紹一些研究發現。
比如一篇文章説保暖、多喝熱水會改善你的人際關係,因為一項研究表明,物理温暖會提升人際温暖,相比於拿冷咖啡,拿一杯熱咖啡會讓你對陌生人有更積極的評價。
另一篇文章説在設計調查問卷時,最好把落款簽名設計在問卷的開頭而不是最後,因為一項研究表明這樣可以提高被調查者回答的誠實度。
還有一篇文章説應該多給孩子聽莫扎特的音樂,甚至應該從孕期就開始把聽莫扎特的音樂作為胎教,因為一項研究表明聽莫扎特的音樂能提升人的認知能力。
……
圖1. 暢銷幾十年的經管類書籍《影響力》是許多人的社會心理學啓蒙
我們總是傾向於相信這些研究結果,有心的話還會主動運用到生活中。畢竟心理學不是一門科學嗎?研究者不是專家嗎?這些研究不都經過同行評審發表在國際知名期刊上嗎?
然而,近年來,研究者越來越多地發現,心理學或範圍更廣的社會科學研究,常常是不可重複的。也就是説,一些此時此地這些人身上發現的現象,在彼時彼地那些人身上就消失了!可重複性是科學的一個重要特徵。這些不能重複的現象並不是真正的科學效應。
如果不能重複的研究只是孤例,那倒也沒什麼。不幸的是,2015年的一項大規模重複研究發現,能成功重複的心理學研究的比例,竟然不足40%![1]超過一半的研究結果都並不可靠。這就是近十年心理學界廣泛討論的“可重複性危機”。
可重複性危機
可重複性最早進入心理學研究者的視野,大概是在2011年。這一年心理學界發生了兩件大事:
荷蘭著名社會心理學家斯塔佩爾(Diederik Stapel)被發現數據造假,他的那些“著名“發現 ”都是虛假的,發表的58篇文章被撤回;美國著名社會心理學家達里爾·貝姆(Daryl Bem),享譽大半生後,以73歲高齡在社會心理學頂級期刊《人格與社會心理學》(Journal of Personality and Social Psychology,JPSP)上發表了一篇對超感官知覺,也就是所謂的第六感(預測未來)的實證系列研究,報告了9個實驗來説明超感官知覺現象的存在。[2]
JPSP的編輯和審稿人認為貝姆的這項研究符合當時心理學界對研究方法的一切要求,可是他的研究結果卻扯上了一個爭議極大的、被認為是偽科學的命題。
這篇研究甫一發表,便激起了激烈的討論。批評者重複了貝姆的實驗,未能成功重複出顯著的結果,這項重複失敗的研究一年後同樣發表在JPSP上。[3]
心理學頂級期刊所認同的研究方式,卻催生了如此有爭議的發現,那麼其他已發表的研究是不是也可能不可靠呢?從此以後,心理學界逐步對研究實踐進行反思,越來越多的研究者開展了重複性研究。
其中最有代表性的,當屬美國弗吉尼亞大學的心理學家諾塞克(Brian Nosek)領導的開放科學合作計劃(Open Science Collaboration),在2015年進行了第一項大規模重複研究,對三大心理學頂級期刊《人格與社會心理學》(JPSP)、《實驗心理學》(Journal of Experimental Psychology,JEP)、《心理科學》(Psychological Science,PS)上的100項研究進行了重複,發現只有36%的研究得到了成功重複。
重複一遍,在心理學頂級期刊上發表的研究,能被成功重複的只有大約三分之一!社會心理學尤其是重災區,而普遍認為比較“硬核”的認知心理學研究的重複率也只有大約50%。
圖2. 心理學頂刊文章的可重複性。(來源|nobaproject.com/modules/the-replication-crisis-in-psychology)
未能成功重複意味着什麼
需要注意的是,一項研究的結果未能成功重複,並不能説明效應一定不存在。
研究重複失敗,可能有4種原因:
1.原始研究存在問題,研究者動了手腳,如篡改了數據;
2.原始研究得到的結果是巧合,最常見的情況是原始研究的被試數量太小,相當於抽取小樣本,很容易抽到並不能代表總體的巧合樣本。
3.原始研究得到的結果是真實的,但只適用於當時當地參加研究的被試羣體,而不適用於重複研究的被試羣體。
4.原始研究得到的結果是真實的,是重複研究出了問題,比如實驗流程未能完全重複原始研究。
前三種原因導致的重複失敗,都可以説明原始研究得出的結果是不可靠的。
而第4種情況當然是有可能出現的,所以單獨一項重複研究可能並不能説明問題,對一項研究結果進行重複驗證是必要的。不過,第4種情況出現的比例不會很高,説明有大量心理學研究結果確實不可靠。
所以心理學就不靠譜?
如此低的可重複率,是在宣告心理學作為一門科學的失敗嗎?
其實重複失敗在科學界很常見。一個著名的例子就是1989年的室温核聚變懸案,兩位科學家宣稱在室温下實現了持續的核聚變,但其他科學家未能重複出其研究,這一令人歡欣鼓舞的重要發現沒能進入科學的殿堂,至今爭議不斷。
在醫學界,尤其是基因與疾病的關聯方面,也存在嚴重的重複失敗問題。只有大約4%的關於基因和疾病之間關聯的研究結果被成功重複。曾經,研究者普遍相信存在與抑鬱症有關的基因,但2019年美國科羅拉多大學的研究者進行了一項大數據研究,並沒有發現數據支持所謂的“抑鬱基因”,20多年間的上千項研究一下子沒有了根基。[4]
可重複性危機的出現,恰恰説明了心理學和社會科學正走在成為一門硬科學的道路上,只是學科內部存在一些需要解決的問題。
問題其實很簡單:期刊鼓勵發表原創研究,不鼓勵發表重複研究。於是大多數研究都是探索性的,研究者初步發現一個現象,馬上發表,然後就把這個現象當成一個確實存在的效應,不再進行檢驗、重複。在所有人都追逐着發表新的研究、發現新的現象,而大量發表的結果是來自於巧合,或只適用於特定人羣,甚至是篡改數據而得到。基於這些並不真實存在的效應,大量後繼的新研究成了沒有根基的空中樓閣。
發現問題就解決問題。可重複性危機並沒有壓垮心理學,而是促使研究者對研究實踐進行調整改進,重視重複研究,期刊也開始鼓勵重複研究的發表。大家這才發現,越來越多經典研究,甚至是寫進了心理學教材的研究得到重複,其中很多都未能成功重複。
追蹤最新的重複研究結果
隨着重複研究越來越多,即使是心理學教授和研究者也很難追蹤到所有最新的重複研究結果。為了幫助更多人瞭解重複研究的進展,一批心理學家組建了“開放和可重複研究訓練框架”(Framework for Open and Reproducible Research Training, FORRT)。他們整理了上百個心理學效應的重複情況,目前還沒有完成(2024年才全面完成),但已具規模,可以在網站[5]上看到他們總結的結果。
圖3. 開放和可重複研究訓練框架,網站首頁截圖
FORRT目前羅列出了130多個受到重複研究檢驗的心理學效應,涵蓋社會心理學、積極心理學、認知心理學、發展心理學、市場營銷學、神經科學等各個心理學分支。
對於每個效應,FORRT列出了原始文獻、批評文獻(包括重複研究、綜述、元分析等),以及原始研究和重複研究的效應量,並給出了一個標記:replicated(成功重複)、not replicated(未能成功重複,有的甚至效應出現了反轉)或mixed(部分重複成功,部分重複失敗)。
需要注意的是,因為目前還在資料收集階段,未經過review,所以網站上一些效應給出的標記有誤,不過參考列出的文獻也能自行得出結論。
在這130多個效應中,只有不到20個得到成功重複,40多個標記為mixed,未能成功重複的多達近70個。我們姑且認為mixed算部分成功重複,那麼replicated和mixed加起來也還不足50%,可見確實有很多效應無法被重複。
成功重複的“優等生”
我們先來看看哪些效應是“優等生”,被標記為replicated,其中比較知名的有:
親社會花費:為別人花錢比為自己花錢會產生更強的幸福感。最小羣體效應:被試被分入無意義的羣體(如擲硬幣得到正面的小組、喜歡紅色而不是藍色的小組)後,也會更偏愛自己所在羣體的成員。鄧寧-克魯格效應:在某方面知識或能力有限的人,往往會特別高估自己的知識或能力,過度自信。但要注意,廣為流傳的“愚昧山峯”、“絕望之谷”的圖並不是鄧寧-克魯格效應本身包含的內容,還沒有接受仔細的檢驗。損失厭惡:人們面對同樣數量的收益和損失時,損失帶來的負效用大於收益帶來的正效用。曝光效應:重複接觸同樣的事物,會讓人對這個事物評價更高。旁觀者效應:在有其他人在場的情況下,會出現責任分散,每個人向需要幫助者伸出援手的可能性會降低。高於和低於平均效應:人們把自己和他人進行比較時,在比較簡單的能力方面會高估自己的能力在人羣中的位置,而在比較難的能力方面會低估自己的能力。
著名的反面教材
很不幸,有一些廣為人知的效應未能被成功重複:
皮格馬利翁效應(又稱羅森塔爾效應、期待效應):在羅森塔爾1966年的研究中,研究者隨機挑選一些學生,告訴老師這些學生在IQ測驗中表現得最好,最有潛力。研究報告稱,因為知道了預言,老師對待這些學生會有所不同,導致這些學生的IQ平均提高3.8,並且效應會隨時間累計越發明顯。但後續研究發現,教師期待的影響確實存在,但遠小於羅森塔爾的報告,且影響是暫時的,不會隨時間累積。力量姿勢:2010年的一項研究發現,擺出有力量的姿勢,也就是伸展、開放的姿勢(比如雙手叉腰),會使體內睾丸素水平升高,皮質醇水平降低,讓人更自信、有力量。這一著名的具身認知效應,未能得到成功重複。面部表情反饋:1988年的一項研究發現,擺出微笑的姿勢(如嘴裏橫着咬住一支筆)會讓人心情愉悦,而噘嘴會讓人情緒低落。這一具身認知效應也未能成功重複。自我損耗:著名心理學家羅伊·鮑邁斯特(Roy Baumeister)在1998年的研究中提出,自控力是一種有限的資源,抑制一種想法、情緒或行為會消耗自控力,在做了一項這種抑制任務後,被試會出現自控力損耗,在後續的任務中堅持的時間更短,表現更差。由於鮑邁斯特的爭議發言(重複失敗是因為做重複研究的人能力不行),這一效應受到了多次重複檢驗,最後發現實驗室中歷時幾分鐘的損耗任務無法真正讓人自我損耗。無意識思維優勢:2006年的一項研究發現,在做需要考慮很多因素的複雜決策時,不仔細思考往往能讓人做出更好的決策。重複研究中這一現象並未出現。
還有本文開頭提到的三個研究發現:物理温暖提升人際温暖、落款在前提升作答誠實性、莫扎特效應,都未能得到成功重複。其中,關於落款位置的原始研究,還因為數據作假的問題被撤回了。[6]
除此之外,有一些已被我們當作常識的效應被標記為mixed,至少説明這些效應的重要性和影響力被高估了:
成長型思維:著名心理學家德韋克(Carol Dweck)在1995年的研究中首次提出,成長型思維——即相信能力是可以提高的而不是固定的——可以讓人在任務中表現得更好。在教育領域,很多研究指出,成長型思維能讓學生取得更好的成績。暢銷書《終身成長》即以此為基礎寫成。但重複研究普遍發現,成長型思維的影響其實並不大。助推:2017年諾貝爾經濟學獎獲得者理查德·塞勒(Richard Thaler)於2008年的研究中提出了助推的概念,即通過正向強化和間接建議來影響人們的行為和決策,而不要使用直接教育、強制或懲罰的手段。一個很有名的例子是荷蘭阿姆斯特丹史基浦機場在每個男士小便池裏印上一隻蒼蠅,此舉的效果遠好於“向前一小步”的標語。不過,助推效應近年來受到元分析的質疑,即使助推效應確實存在,效應量也很小。
圖4. 雖説這兩種效應不見得顯著,但這兩本書也許還是幫到過你。
同類不同命
有趣的是,有一些同領域的密切相關的效應,其中一些得到了成功重複,一些卻重複失敗了。
比如“稀缺效應”,其中包含了一系列效應,都是説真實資源或者想象資源(財富、時間等)有限的人,會表現出的一系列傾向,包括:
時間折扣:收入驟減的變故會讓人更偏向於即刻獲得的低額獎勵,而非一段時間後才可獲得的高額獎勵;生理疼痛:經濟上的不安全感會讓人感到更強的生理疼痛;過度借貸:感受到的缺錢會讓人過度借貸;物質商品偏好:窮人會偏好物質商品,而非體驗性商品;幸福感:想象在一座城市停留的時間即將走到盡頭,會提高人的幸福感;有意識思維:相比於富人,窮人會更經常產生與財務擔憂相關的想法;競爭/威脅:商家的飢餓營銷會使消費者將其他消費者感知為有威脅的競爭者;產品使用創造性:資源稀缺會使人更有創造性地利用產品;偏好極化:感知到的稀缺會讓人產生偏好極化,即更強烈地偏好某一選項,排斥其他選項;
……
以奧唐奈(Michael O’Donnell)等研究者2021年發表的、對20項研究的大規模重複檢驗為代表的重複研究,發現以上列出的這些稀缺效應中,1~4得到了成功重複,而5~9均沒有得到成功重複。[7]
可見,即使是同一領域、強關聯性的研究結果,也可能有的靠譜,有的不靠譜。我們需要批判性地看待每一個研究結論。
對於心理學應持怎樣的態度?
大量心理學研究結果無法被成功重複,面對這個現實,我們應該怎麼辦?
是不是要棄心理學如敝履,從此不再相信心理學,不把心理學當成一門科學嗎?
正如前文所説,可重複性危機並沒有壓垮心理學,研究者們正在積極地改變研究實踐,一方面通過重視重複研究和元分析,檢查以往研究的可靠性;一方面通過鼓勵預註冊(即在研究開始之前就詳細登記研究方法和預期結果,防止研究者對數據進行操縱),以及增加樣本量(提高統計檢驗力),來提升新研究的可靠性。
但整個學科邁向更嚴謹的科學還需要時間。目前,我們對哪些心理學知識靠譜,哪些不靠譜仍難有十足的把握。在這樣的情況下,我們需要具有批判性的思維。
或許可以這樣説:任何單個研究的成果都不能全盤相信。對於那些吸引眼球的標題、讓人眼前一亮的研究成果,最好的態度是:挺有趣的,先記着,再看看。
要批判性地看待研究結果,首先需要對研究有基本的瞭解。如果一個研究説,讓被試想到老年人,就會讓被試行動變得遲緩,那麼我們需要了解被試是什麼樣的人(可能是歧視老年人文化下的美國大學生),需要了解“讓被試想到老年人”是怎麼讓他們想到的(也就是具體的研究方法),然後才能判斷基於這些被試的結果對我們是否適用,研究中的操作對現實生活是否有參考價值。
更重要的是,我們需要看到研究的進展和全貌:類似的研究、重複研究取得了怎樣的結果?其他研究者怎樣看待這項研究?(比如上面這個“想到老年人”的研究,就沒有得到成功重複。)
當然,以上兩點對科普作者提出了較高的要求。優質的科普並非只傳達零星的研究發現,而需要呈現研究的全貌,甚至最好能呈現關於一個話題研究進展的全貌。
科普作者的工作方式或許需要來一個轉變:不是為了傳達一個觀點,去尋找支持這個觀點的研究,來説服讀者;而是針對一個話題,把研究的進展和脈絡梳理呈現,再整理出一個最受支持的觀點。
以上種種,聽起來都很嚴肅、很累。嚴謹是一種科學態度的追求,不過對於心理學這樣的學科,或許也可以留有一些模糊的空間。
人性、人心本來就極其複雜,我們希望儘可能地揭示心理的客觀規律,但也不應該期待簡單的理論、淺顯的效應就能解釋一切,並奢望這些理論和效應適用於所有人。看到心理學的侷限,承認人性的幽微與複雜,或許也是一件浪漫的事情。
我個人的觀點是,儘可能批判性地瞭解更多心理學知識和研究發現,但也不必對一些看起來還不夠嚴謹的暢銷書、科普文持批判一切、否定一切的態度——信不信本來就是個人的事,有時候信則靈也説不定呢。
參考文獻
[1] Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349.
[2] Bem, D. J. (2011). Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425.
[3] Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012). Correcting the past: Failures to replicate psi. Journal of Personality and Social Psychology, 103(6), 933–948.
[4] Border, R., Johnson, E. C., Evans, L. M., Smolen, A., Berley, N., Sullivan, P. F., & Keller, M. C. (2019). No support for historical candidate gene or candidate gene-by-interaction hypotheses for major depression across multiple large samples. American Journal of Psychiatry, 176(5), 376-387.
[5] https://forrt.org/reversals/
[6] Retraction for Shu et al., Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. https://www.pnas.org/doi/10.1073/pnas.2115397118
[7] O’Donnell, M., Dev, A. S., Antonoplis, S., Baum, S. M., Benedetti, A. H., Brown, N. D., … & Nelson, L. D. (2021). Empirical audit and review and an assessment of evidentiary value in research on the psychological consequences of scarcity. Proceedings of the national academy of sciences, 118(44), e2103313118.
本文受科普中國·星空計劃項目扶持
出品:中國科協科普部
監製:中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權説明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯繫後台。