淺析港大袁國勇等關於湖北省新冠感染人數估計的荒謬性_風聞
Morphism-2022-01-16 13:39
2020年6月,香港大學袁國勇等在柳葉刀(The Lancet)上發表了題為**《Seroprevalence of SARS-CoV-2 in Hong Kong and in residents evacuated from Hubei province, China: a multicohort study》**的文章(以下簡稱袁文),文中對湖北省的新冠感染率和感染人數進行了估計。本文在不討論袁文中各種測試數據準確性的前提下,僅從樣本代表性的角度出發,指出其推斷的荒謬性。
寫這篇文章的動機,一是因為袁文為我的《概率與統計》課程(思政建設部分)提供了一個生動案例。二是希望能為自己的家鄉湖北盡一份心力。為了方便閲讀,我對袁文關於湖北新冠疫情的分析過程進行了提煉:

眾所周知,在用樣本值去估計對應的總體參數,最基本的前提是:你的樣本要能夠較好地代表總體。讓我們來看一看袁文的樣本:
1.袁文用來估計武漢市新冠感染率的樣本:364從武漢撤離的港人。考慮到當時的特殊情況:武漢是疫情的中心,首要的、重中之重的任務是遏制傳播,治病救人,一時難以兼顧各種數據的收集和整理工作。因此,用此便利樣本(Convenience Sample)來代表武漢市總體,還是有一定的合理性的。但必須指出該樣本存在明顯缺陷:
a) 樣本數太小,2019年武漢市人口約1100萬。
b) 請看武漢地圖


武漢是超大都市,其中心城區被長江和漢江分隔成三大塊,就是人們常説的武昌(文化、教育比較集中)、漢口(主要是商業區)、漢陽(主要是工廠區)組成的武漢三鎮,另外還包括6個遠城(郊)區。中心城區常住人口約600多萬,佔武漢市常住人口的約56%。一方面,由於兩條大江的阻隔,再加上區內湖泊星羅棋佈,中心城區之間新冠的感染率應該還是有所差異,但是考慮到中心城區交通四通八達,這種差異應該不會太顯著。另一方面,鑑於武漢的人流、物流主要集中在中心城區,因此遠城(郊)區和中心城區的新冠感染率差異應該是比較顯著的.
c) 在漢港人一般生活在中心城區,遠城(郊)區基本沒什麼港人。
總結下:1是鑑於當時特殊情況,用此便利樣本代表武漢人口總體有一定合理性,但更合理的做法應該是用該樣本代表武漢中心城區人口總體,而不是武漢全域。2是樣本太小,影響結論的可靠性。
2. 我們再看袁文用來估計湖北省(含武漢市)的新冠感染率的樣本:從湖北撤離的那452名港人,其中364人(約80.5%)來自湖北省武漢市,88人(約19.5%)來自湖北其他地區。請看湖北地圖:

武漢市是湖北的首府,對周邊確實有很強的輻射作用。但是也應考慮到:地理上武漢只佔湖北中東部的一小塊,其2019年人口(約1100萬)也只佔2019年湖北總人口(約5900萬)的約18.6%,還有佔比81.4%的4800萬人生活在廣袤的湖北其他地區。我們在分別看看樣本、總體中關於武漢屬性的比例
樣本中

總體中

注意:兩個比例幾乎截然相反,因此任何一個稍具統計學知識的人都不會離譜到用這樣的樣本來代表湖北人這一總體。
3. 根據完全不具代表性的樣本得出的關於總體的相關結論,在科學上顯然是沒有任何的可靠性,袁文中關於湖北省新冠感染率和感染人數的估計是如此的荒謬,我們來做一下簡單的加減乘除,從袁文中就可以得出:
a) 湖北省(除武漢市外)的其他地區的4800萬人口中,約有220萬-50萬=170萬人感染新冠,而樣本中從這廣袤地區撤離的港人中僅有1例陽性(來自荊州的港人)。
b) 更極端些,假設這1例陽性也是來自武漢撤離港人,用袁文的方法,就會 得出這4800萬人中還是大約有

人感染新冠。想想看,這就相當於説:儘管樣本中從湖北其他地區撤離的港人無1例陽性,但由此依然推出這些地區有約170萬人感染新冠,僅僅是因為它們和武漢市同屬於湖北省。
最後,讓我們來看看袁國勇教授的學術背景:
袁國勇:中國工程院院士、香港科學院創院院士、美國微生物科學院院士、中國醫學科學院學部委員,香港大學霍英東基金教授(傳染病學)、香港大學李嘉誠醫學院微生物學系講座教授、香港瑪麗醫院微生物學系主管、香港大學新發傳染性疾病國家重點實驗室主任。
行文至此,有一個問題一直縈繞在我的腦海:如此資深的一位學者,為何會犯如此低級的錯誤?如此權威的一家學術期刊,為何會刊登有如此低級錯誤的文章?從袁文中的一句結論,我們也許會看出些許端倪:“截止2020年3月31日,湖北省總共報告出現症狀的新冠確診病例67802(220萬的3%),因此在疫情期間97%%感染可能未被診斷出來。”(The number of laboratory-confirmed symptomatic patients in Hubei province was reported as 67 802 (3% of 2·2 million) as of March 31, 2020. Thus 97% of infections in Hubei might have gone undiagnosed at that period of the epidemic.)
下面是與本文相關的袁文部分節選(格式與原文有所不同):
1. 469 Hong Kong residents were evacuated from Hubei province on four different flights on March 4–5, 2020, and were quarantined at a housing estate. 1665 serum samples were collected from 452 returnees from Hubei province (of which 364 [80·5%] were from Wuhan) on day 1, day 5, day 9, or day 13 after returning from Hubei (appendix pp 5–7). 17 (4%) of 469 returnees refused to have their blood taken.
…All 452 Hubei returnees were asymptomatic…
…Among the 452 returnees, 17 (4%) were seropositive with either the microneutralisation assay or the enzyme immunoassay. 16 individuals who were seropositive had been staying in Wuhan, and one had been staying in Jingzhou…
2. Our seroprevalence data for Hubei returnees showed that RT-PCR confirmed infections grossly underestimated the actual prevalence of COVID-19. With a population of 59 million (Hubei province) and 11 million (Wuhan) people as of 2019,17 our findings indicate that about 2·2 million people (3·8%, 95% CI 2·2–6·0) in Hubei and 0·5 million people (4·4%, 2·5–7·1) in Wuhan could have been infected…