統計學是人類無能為力下的努力_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!02-21 09:23
“統計規律”反映的是人類認識上的侷限性,是人類對偶然性的作用無力完全掌握,卻還要在這種侷限性的約束下認識自然的一種努力。
撰文丨陳希孺(數理統計學家、中國科學院院士)
吸煙會增加患肺癌、其他癌症以及諸如心臟病等嚴重疾病的風險。醫生提出告誡,勸人戒煙,各種媒體和出版物中不時可以見到有關的報道。這並不是空穴來風,它得到了統計數據的支持。早在 1948-1949 年,英國有兩位學者多爾和希爾就研究過此問題。自那時起至 1956 年,他們發表了一系列的報告。他們從倫敦20家醫院中搜集了709名肺癌病人,以及對照組——另外709名未患肺癌者的吸煙情況的資料,按吸煙鬥還是紙煙、男還是女、是否將煙吞進肺裏等指標分類。
經過統計分析,他們發現吸煙與患肺癌呈明顯的正相關(即吸煙會增加患肺癌的風險),而紙煙的危害性又大於煙斗。自那時以來,類似的統計資料發表了不少,幾乎全部證實了二者有正相關的説法。這個正相關的結論是一個統計性的結論,或把它稱為一個統計規律也可以。統計規律有什麼特點,怎樣去理解它的意義?下面我們要通過本例和其他一些實例來回答這些問題。
首先,統計規律是關於羣體的規律。對羣體中的個體,情況複雜多樣,不是一定就是這樣的。拿本例來説,有重度吸煙卻終生保持健康者,也有不吸煙而很早罹患肺癌者,不能用這類個別的例子來否定二者有正相關的結論,因為它講的是羣體中的一種趨勢。又如,統計資料的分析表明,人的收入與其受教育年限呈正相關。但高學歷低收入和低學歷高收入的情況,所在多有,這並不否定上述規律的正確性,也是因為它講的是一種總的傾向性。前些年常提到“體腦倒掛”的説法,並非指存在個別(甚至不少)學歷與收入錯位的例子,而是指在整個人羣(全國,或某地區、部門)中,收入與學歷呈負相關,大的趨勢有了倒轉。
有的讀者可能會有疑問:“羣體是抽象的,每件事都必須落實到其中的個體,患不患肺癌是每個人的事,這樣一種關乎羣體中的趨勢的規律有何意義?”對此我們是這樣理解的。第一,這種規律反映了某種客觀存在的現實,有科學意義和認識意義。如在本例中,此規律指出(這正是“正相關”的含義),在抽煙的人羣中,患肺癌人數的百分比,要高於不抽煙的人羣中的同一百分比,且這百分比還隨着抽煙量的增加而上升。這個認識就很有實際意義,它是許多國家和團體發起“戒煙運動”的理由所在。第二,對個人而言,有警誡的作用。我們説這個結論是一個關於羣體的規律,並不是説它就與個人無關。天生萬物各不齊,個體之間有差異(遺傳、環境等)不好比,但就同一個人説,吸煙增加患肺癌的風險這一警告並非不適用。又如,一個人多學一些東西,提高自己的能力,對增加自己的收入總會有好處。這與在社會上確實存在學歷高而收入低的情況,並無矛盾之處。
“統計規律”這個提法的啓示是,教人看問題不可絕對化,因而有思想方法上的教育意義。習慣於從統計規律看問題的人,在思想上不拘執一端。他既認識到一種事物從總的方面看有其一定的規律在,也承認存在例外的個案。二者看似矛盾,卻是並行不悖的,它反映了我們生活在其中的世界的多樣性和複雜性。甚至可以説,如果不是如此,我們處處被一些鐵板釘釘的規律所支配,則生活將變得何等單調無味。説起來這不過是一個初淺的常識,但事實表明,並非每一個人都能習慣於這種思想方式,使其成為一種本能。常聽見有這種爭論:當甲提出某種説法時,乙就指出一個反例,證明其所説不實。統計學家對此的看法是:甲的説法可以是一個統計性的規律,它需要大量的統計資料的證明或證偽,乙指出的個別反例不一定能構成否定甲的説法的充分理由。
從反面講,也可以説統計規律這種東西的出現,反映了人類認識上的侷限性,反映了人類對偶然性的作用無力完全掌握,也反映了人類在這種侷限性的約束下認識自然的一種努力,即在偶然性造成的紛亂無序的狀態下,儘量從中找出一些雖不完善,但具有規律性的品格的東西。拿本例來説,人人都希望能有這樣一個公式,當你按照這個公式生活時,可保證你不患肺癌。這種公式現在沒有,將來什麼時候會有也難説,如果你要求把事情搞到這樣確切的程度,則只好什麼也不做。究其原因,還是由於個體差異即偶然性的作用。“不吸煙能減小患肺癌的風險”這類統計規律的獲得,是一項有用的成果,雖然它有其侷限性。
其次,統計方法只是從事物的外在數量表現上去研究問題,通過對數據的分析,揭示可能有某種規律性的東西存在,而不涉及事物的質的規定性。換句話説,統計分析的結果可以告訴你,從觀察和試驗資料來看事情是怎樣的,而不能告訴你為什麼會這樣。拿吸煙與患肺癌的關係來説,統計分析不能告訴你為什麼吸煙是患肺癌的危險因子,那是要由醫學家去研究的問題。又如,通過抽樣檢驗對所得數據進行統計分析,表明生產同一產品(如電視機)的甲、乙兩廠中,甲廠產品質量優於乙廠。這純粹是從所掌握的數據上得出的結論,它不能告訴你為何甲廠產品質量會好一些,這可能是由於它的設備新、管理好、工人素質高等,具體如何,要做進一步研究才能確定。要指出的是,説甲廠產品質量優於乙廠,這也是一個統計性的規律,它可以通過統計學的概念和術語,以某種形式表述出來。但當從兩廠各拿出一件具體產品來比較時,並不能保證甲廠那一件一定好一些。
“知其然而不知其所以然”一般是一種含有貶義的説法,用統計分析方法得出的結果,就屬於這種情況,其意義何在,有必要加以説明。下面從兩個方面來討論這個問題。
從應用上説,一旦我們從數量的表層發現了某種有實用價值的規律性,就可立即將其付諸應用,至於其機理問題,可留待學者們從長研究。有許多具實效的藥物、偏方和治療方法,經過一定範圍內的使用驗證確有成效而得到推廣,其機理有的並無滿意的解釋。在工業中,通過配方、工藝上的改進而得以改善產品質量的例子很多,這些在起初都是經過多次試驗而總結出的結果,經過生產實踐證明其有成效而得到推廣使用,即使其理論根據一時未能完全探明,也無妨其實用——當然,這不是説不必去做出努力以弄清其“所以然”。因為,明白了有關的機理,可以指示進一步努力的方向。
至於在以認識自然為目的的基礎研究中,目標本來就在於探求事情的“所以然”,當然不能停留在事物表層上。但即使在這類活動中,統計方法仍有其不可缺少的作用。事物本質的秘密往往隱藏在深處,不是輕易能夠被揭示的,但它可能以一種曲折間接的方式,在某些數量之間的關係上,露出冰山的一角。許多重大的發現,都是先通過觀察或試驗積累數據,對之進行統計分析,其結論指示了向哪個方向去探索。
通過表面上的數量關係的分析,而推動科學上重大發現的一個著名的例子,是孟德爾遺傳定律的發現。而對現代生命科學有決定性影響的基因學説的提出,就是建立在這個發現的基礎上。孟德爾是奧地利生物學家,他的上述成果發表在1865年的一篇論文中。他用豌豆做試驗,這種豆有黃、綠兩種顏色,孟德爾分別培養了一個黃色的純系和一個綠色的純系,其每一代所結的豌豆全部保持同一種顏色。孟德爾將這兩個純系進行雜交,發現這種雜交品種豆子全是黃色,看上去與黃色純系並無不同,但在將這種雜交品種再進行一次雜交時,孟德爾發現這第二代雜交豆子的顏色黃、綠都有,其比例接近3∶1。孟德爾將這個試驗重複了很多次,每次都得到類似的結果。
如果他將這項工作就進行到此處為止,則這個3∶1的統計性規律也可算是一項科學的發現,但意義畢竟就比較有限了,因為它只涉及這麼一件具體事情。但這個表面上的統計規律性啓發了孟德爾去着手提出一種假説來解釋這個現象。
具體説,他假定有一種後來被稱為“基因”的實體控制着豆子的顏色,這實體有兩個狀態(被稱為等位基因):y(黃)和g(綠),共組成 yy、yg、gy、gg 4種配合,稱為基因型。前 3種配合,即其中至少有一個y的,使豆子呈黃色,唯有第4種配合使豆子呈綠色(在遺傳學上,稱y是顯性的而g是隱性的,意思是只要有y在,g的作用就退隱了)。
根據這個假説,孟德爾的試驗結果就得到了圓滿的解釋。黃、綠純系的基因型分別是 yy 和 gg,雜交第一代只有yg一種可能的基因型,故全呈黃色。但第2代雜交是yg配yg,每方出一個基因,共有 4 種同等的可能性,即 yy,yg,gy,gg,前3種呈黃色而只有後一種呈綠色。這解釋了第 2 代雜交豆子中黃、綠兩種顏色之比近似為 3∶1。下表是孟德爾試驗中的一些具體數據。
表1. 孟德爾的試驗數據
就每一株來説,綠色豆子佔該株豆子總數的比例接近1/4,但有些差距,有的株差距還不太小,全部10株綠色豆子所佔比例為123/ (355+123)≈25.7%,就相當接近1/4。為什麼這個比例只是接近而不是嚴格等於1/4?這就要歸結於偶然性的作用。每個植株豆子都不多,偶然性的作用就比較明顯,10株合起來,豆子總數加大,偶然作用彼此抵消了,1/4的比例就更突出。如果植株更多,這比例與1/4的差距就會更小。
“基因”這個名稱是英國學者貝特森在1909年提出的,自此,基因學説主導了 20 世紀生物學尤其是遺傳學的發展,其意義無可估量。到1950年,基因的存在在分子的水平上得到證實,可以説是給從孟德爾開始的這一項重要研究工作畫上了一個圓滿的句號。可以看出,統計方法在其中起了先導的作用。奧地利著名的現代物理學家薛定諤有一段話,很中肯地表達了統計方法在科學研究中所起的作用(轉引自陳善林等著《統計發展史》,第245頁):“在最近60年或80年中,統計方法和概率計算進入了一支又一支的科學……開始時(使用)這個新式武器總是伴隨着一個藉口,它是為了救治我們的缺點,我們對細節的無知,或無力應付大量資料……但是似乎無意中,我們的態度就改變了,我們意識到,個別的情況完全沒有興趣,不管關於它的詳細知識是否能夠得到,不管它提出的數學問題能否應付。我們明白,即使它可以做到,我們也會因跟蹤成千的個別情況(而導致的紛亂狀態),最後也不能得出一個比統計數量更好的結果,我們實際感興趣的乃是統計機制的運用。”薛定諤的這段話所指的就是,在涉及大量個體的羣體的研究中,統計性規律的意義和作用。羣體中的個體數太多,即使你有能力對其一個個加以跟蹤研究,也會因為個體的差異性而呈現的紛亂狀態,得不出什麼有用的結論。相反,一個或一些反映統計規律性的統計數量對我們更有用。例如,調査了成千上萬的人的身高體重狀況,都登記在一本冊子上,雜亂無章,看不出什麼問題。而一個反映統計規律的粗糙公式——體重=身高-105,則對我們有用得多,雖然這公式遠非確切。薛定諤所説“我們實際感興趣的乃是統計機制的運用”,指的正是“通過個別情況的研究從中總結出統計規律性”的方法。而薛定諤指出,這種規律性有助於我們探求事物的實質。
薛定諤説這個話是在1944年。當時,電子計算機尚未發明,人們處理大量數據的能力還很有限。從今天的情況看,他的論點就顯得更為貼切。在有計算機之前,有不少統計方法,因為涉及的計算量太大,人力難於完成,因而實際上無法應用。現在,像處理大氣污染這類問題,牽涉幾十個因素和極大量的數據,在以往是不能想象的,如今用計算機可在很短的時間完成。1858年,英國為繪製本國地圖,做了一次大型的大地測量,收集了極大量的數據,用最小二乘法處理這些數據,涉及解920個未知數的線性方程,整個工作分兩組人員獨立進行,花了兩年半的時間才完成。如今在電子計算機上,這類的計算已算是比較輕而易舉的事情。這種情況的出現,使基於數據的統計分析方法在探究自然的奧秘中,起着比以往更大的作用。
以上的論述着重在替統計分析方法“評功擺好”,那麼,有沒有負面的因素呢?我們説有,不過要趕緊申明的是,這種負面因素並非出自方法本身,而是在於方法的不當使用甚至濫用。多年前有一位知名的美國統計學家來中國訪問,他曾半開玩笑地説:“什麼是統計學家?有人説,統計學家是一羣騙子,他們可以用數據證明任何想要證明的事情。”這是指對統計方法的濫用,甚至是為了自私的目的而損害公共利益,其中包括偽造數據,所謂“官出數字,數字出官”,指的就是這件事。即使不偽造數據,只要通過有偏向地採取數據,也可以引導出所想要的結論。例如在宣傳某種藥物或保健品的功效時,只提正面的例子,對無效甚至有反面效果的例子略而不提。更多的情況是使用不當。這首先是數據的採集。數據的採集方式必須嚴格符合隨機性等一系列的要求,才能用作統計分析的原料,不然就會產生誤導。關於這一點,本書後面的章節會有一些實例來説明。其次是效應或差距的顯著性問題。這指的是如下的情況:有的試驗的目的是為了證實某項措施有效(例如,一種治病的新方法,其療效比現有的方法高),但試驗規模很小,或試驗誤差太大,因而偶然性影響增大,從數據上顯示的差距,其實不過是出於偶然性的作用而非實質的。這一點用嚴格的統計檢驗方法本是可以鑑別的,但因未做這種嚴格的統計檢定,就按其表面差距以成果的形式報道出來,而產生誤導。
我們不時地從媒體及出版物中,看到對同一件事的兩種不同的説法,都有其統計資料的根據:鹽吃多了易導致高血壓,但也有説二者並無關聯的;糖是健康的殺手,但也有要“為糖平反”的。類似這種例子很多,尤其是涉及與人體有關的。那麼,為何這些截然不同的説法,都有其統計資料的支持呢?一方面,這需要仔細審查其數據的獲得方式,以及數據的規模。因為,在有些問題,特別是與人體有關的問題中,個體的差異太大,局部的數據,即使其來源正當,統計分析方法也合乎規範,但依靠規模不大的數據分析所得的結論外推至於普遍,常會發生問題。例如,根據法國人喝葡萄酒多而心臟病患者少,就推出喝葡萄酒有助於降低心臟病發病率的結論。可是首先,法國人心臟病發病率低是否與多喝葡萄酒有關,是一件未經嚴格統計分析證實的事情,還有待做進一步的研究。其次,即使這一説法對法國人成立,它是否必然也適用於其他人,尤其是在地域上、體質上和生活習慣上與法國人都有較大差異的東方人,這也需要統計資料的證實。
總之,統計方法是一個很有用的方法,但其單從表面數量關係着眼的特點,使其有易於被濫用、誤用和誇大的危險。統計學的任務就是教人怎樣去正確使用這種方法,恰當而有分寸地解釋其結論,對種種統計分析的結果做出正確的評估(這需要對其數據來源及使用的方法有了解)而避免誤導公眾或為人所誤導。
統計規律常以“某些事物之間有關聯”的形式出現。吸煙與患肺癌的關聯、學歷與收入的關聯等都是例子。要注意的是,這種關聯性不一定意味着因果性。當甲、乙兩個事物有關聯時,可能甲為因乙為果,或乙為因甲為果,也可能什麼都不是,而是甲、乙二者都受到某一尚不瞭解的因素的影響而產生關聯。
《南方週末》1998年8月14日刊載了一則報道,説華盛頓大學醫學院的專家在對1000人的檢查中發現,其中耳垂有皺褶的有373人,在這373人中,查出患冠心病者有275人,比率約為73.7%,遠高出一般人中冠心病患者的百分比,顯示二者之間可能存在關聯(這一點尚待更多的資料證實)。但二者之間是否有何因果關係則難言。不能想象耳垂皺褶之“因”導致了冠心病之“果”,冠心病導致耳垂皺褶的根據也非明顯。是否有何隱蔽的因素同時導致這二者?這是一個可以設想的解釋,究竟如何,有待進一步的研究。
《科學時報》1999年3月10日的報道稱:“大城市裏擁擠、嘈雜、緊張而充滿壓力的生活方式,是導致人們心臟病發作的主要原因。”又説:“美國科學家的研究表明,紐約是最容易引發心臟病的大都市。”
報道沒有揭示美國科學家做出該項結論所依據的數據。説到因果關係,從常識看,也覺得有充分的理由相信前者是因而後者是果,不過也還有進一步考慮的餘地。筆者曾去過上海、香港、東京、紐約等大城市,發現從擁擠、嘈雜、緊張等方面看,上海、香港、東京未見得比紐約好,但這些地方心臟病發病率也不高於他處。
最有名的例子,恐怕要算前面討論過的吸煙與患肺癌的關聯問題。根據多爾和希爾的報告,《英國醫學雜誌》於1957年6月29日發表社論,肯定了吸煙對健康的損害作用,並認為有必要在公眾中廣為宣傳此事。這招致了當時在英國也是全世界最著名的統計學家和遺傳學家費歇爾的質疑。費歇爾是20世紀現代統計學的主要奠基人,現今仍在使用中的一大批重要的統計方法就是出自他的首創。他因在科學研究上的卓越貢獻,於1929年被授予爵士稱號,他的質疑當然非同小可。在1957-1958年這兩年期間,他為此與一些人捲入了一場論戰,論戰以在《英國醫學雜誌》上發表信件的形式進行。
費歇爾從多爾—希爾數據的分析中,發現了一件有些出人意料的事:在吸煙者中,把煙吸進肺裏者,其患肺癌的風險顯著地低於那些不把煙吸入肺裏者,顯著度高達1%。後一語的意思是,“把煙吸入肺裏者患肺癌的風險低”這一結論犯錯誤的機會低於1%。如果煙真的對肺有傷害,那麼,將煙吸入的危險性理應更大,這是一個與“二者(吸煙與患肺癌)有因果關係”的論斷相矛盾之點。
這還不是費歇爾主要的質疑之處。他對吸煙與患肺癌的關聯提出了一種可能的解釋,認為二者可能受到同一基因的控制,即某些人有一種基因,它同時註定了這些人:1. 愛抽煙;2. 易得肺癌。如果這一解釋成立,則吸煙與否並不增加或減小患肺癌的風險,人們也不必為此而戒煙。可見這並非一個純學究式的問題,而是有其巨大的現實意義。
費歇爾的主張屬於下面的模式,當然這也是一切科學工作者所應遵守的模式:如果你發現一種現象,它可能有甲、乙、丙、丁等解釋。無論用甲去解釋這個現象的理由有多充分,如你不能排除乙、丙、丁等的可能性,則這一解釋還不能最後確立。關於上述問題,費歇爾做了一些努力。他找了一些同卵雙生者和異卵雙生者,調査了他們的吸煙習慣,發現前者極相似而後者的相似度差得多,這似乎支持了“吸煙習慣系受基因控制”的論點。但由於取樣上的困難(同卵及異卵雙生的樣本難得,其中患肺癌者更稀少,不足以進行有效的統計分析),費歇爾也未能找到支持上述論點的充分證據。可以説,此問題在科學上講至今仍屬懸而未決,不過大多數人(包括醫學家)傾向於相信,吸煙確是導致肺癌的一個危險因子。
應當指出的是,統計規律未必藴含因果關係,這一點,是統計方法的本性而非其缺陷。尋找因果關係是各類專門學科的任務。統計學作為一門數學學科,統計方法作為一種研究問題的工具,不可能把尋求萬事萬物的因果關係這樣複雜的任務擔當起來。但它通過數量上的分析揭示表面關聯的存在,起着為專門研究指示努力的方向的作用。
本文經授權轉載自《機會的數學:統計學入門》(人民郵電出版社2021年12月版),標題為編輯所加,原標題為“統計規律與因果關係”。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。