岑少宇:哈佛新冠論文的漏洞,你以為就那麼幾條?
【文/ 觀察者網專欄作者 岑少宇】
6月8日,美國哈佛醫學院公佈了一篇尚未經過同行評議的論文,在太平洋兩岸火了一把。
論文標題是“對中國武漢醫院交通與搜索引擎的數據分析,提示2019年秋季有早期疾病活動”,什麼疾病呢?標題沒有明説,看下去就知道,當然是全球矚目的新冠病毒肺炎了。
作者們在摘要裏説,2019年夏末秋初,武漢醫院的停車量和百度上“咳嗽”的搜索量都增加了,雖然“咳嗽”可能和流感季相符,但“腹瀉”更多地是個具有新冠特徵的症狀,“只和當前流行病相聯繫”(only shows an association with the current epidemic)。“這些信號都早於12月,突出新穎的數字信息對監測新傳染病的價值。”
摘要裏還不敢明言新冠就是夏末秋初爆發的,但顯然已經明確聯繫起來。
可我就納悶啦,有些新冠病人有腹瀉,但引起腹瀉的病那可多了去了。你們不知道武漢夏末秋初有多熱是吧?東西時間放得長了,吃壞肚子很正常啊。
我迫不及待地打開論文,想看看作者們到底是怎麼想、怎麼做的。
你猜怎麼着,他們還真的煞有介事地説:“我們發現,8月對腹瀉的搜索有獨特的增長,過去的流感季裏沒有觀察到,與咳嗽的搜索趨勢也不相符。雖然令人驚訝,但這一發現與最近的一項研究一致,那項研究確認胃腸道症狀是新冠的特徵之一,可能是現有相當一部分病人的主訴。”
然而,流感季原文用了複數,顯得好像以前一直沒有,2019年真的很特別的樣子。但圖説明確寫着,只是2018年1月到2020年5月。因此8月僅有2018年與2019年比較,根本不説明問題。
我詳細看了看方法,作者聲稱用WebPlotDigitizer在百度指數的頁面上提取“咳嗽”與“腹瀉”的“相對搜索量”(relative search volume),也沒有具體解釋什麼是“相對搜索量”。也許就只是“搜索指數”的數值吧,畢竟百度並不公佈“絕對搜索量”,但為什麼不寫明呢?
不大瞭解中國網絡的外國研究者,會不會被volueme和index搞糊塗,不方便查驗呢?
論文作者後來又在討論搜索數據時承認:“儘管此方法在複製時間序列時顯示有效,但使用自動化工具(提取數據),生成數字圖像,確實意味着提取的時間與數值是近似值。”
沒想到,觀察者網編輯一查驗“百度指數”,發現不管怎麼理解所謂的“相對搜索量”,“咳嗽”的曲線形態是一致的,但“腹瀉”的曲線形態完全不同,根本不存在8月的獨特增長。這個問題怎麼解釋?還能認為只是近似值的問題嗎?

藍線為咳嗽,紅線為腹瀉

所謂顯示“複製時間序列時有效”的參考文獻,我看了,是紐約市2012-2013年流感季的推特數據,換了一個完全不同的平台就真的有效?事實就是打臉了。
就算按照論文作者的圖表,“腹瀉”搜索有暴增(第一根虛線的左側一小段),但同時“咳嗽”搜索在下降。假如真是新冠,必定存在大量有消化道症狀、沒有呼吸道症狀的患者。
但我看了論文作者引用的那項“胃腸道症狀”研究,這類患者在新冠病人中佔多少?只有3%!這個問題,他們又怎麼解釋?

不要以為論文引用了什麼,就一定是站它的,其實可能只是渾水摸魚。
“咳嗽”搜索的問題,當然也不攻自破。只要看看作者自己的圖片,就能發現,2018年流感季的“咳嗽”搜索,迅猛增長髮生的月份比2019年流感季更早。
更重要的是,每年流感季的時間、強度都不同,單把流感季的相關特徵拿來比較,根本無法推斷是否有新的疫情發生。更何況只有兩年的比較。
論文作者在討論搜索數據時,自己也坦承“不能給增長的原因下結論”,但又“假設有廣泛的社區傳播”,明明缺乏嚴密的邏輯、靠譜的證據,還要如此推論,這是學術還是話術?
剩下的就是停車問題了。論文作者説,“10月和11月醫院停車量增加了,‘咳嗽’搜索也增加了”。普通人看了,都知道這是廢話,這不是流感季理所當然會有的情況嗎?
且不説進醫院的人數,完全無法和特定疾病相聯繫,你根本無法知道一個人進醫院是看什麼病,就算真的都是呼吸系統疾病,又能説明什麼問題呢?

看上去,2019年的停車量比2018年相應月份的高,但論文的“結果”部分,只是描述了2019年的曲線形態,根本沒有與2018年的具體比較,只是説“2018至2020年間,醫院停車量總體呈增長趨勢”,難道自己也對僅僅兩年的比較有點心虛?
其實一搜索就能發現,“據武漢交警介紹,武漢市機動車保有量……2015年年末達到205萬輛;隨後,每年以30萬輛左右的速度遞增,2019年年底突破330萬輛。”停車量整體增長是很正常的。
還有更復雜的,武漢的軌道交通建設也熱火朝天。2018年10月1日,武漢地鐵7號線、11號線東段一期開通試運營。12月28日,武漢地鐵紙坊線正式開通運行。2019年2月19日,武漢地鐵2號線南延線開通,9月25日,武漢地鐵蔡甸線正式開通試運營,11月6日,武漢軌道交通8號線三期開通試運營。
也就是説,兩種出行方式的基本情況變化都很大。在具體某一時刻,你根本無法判斷機動車用户、軌道交通用户的增減情況。
論文作者裏好像有懂中文的呀,這些信息都查不到?是不是查到了也不敢説?因為本來證據就薄弱,如果再承認背景條件變動如此劇烈,這論文就沒法看了。
其實論文的方法還有更多問題。作者聲稱搞了一個全面的武漢醫院名單(a comprehensive list),但排除專科醫院(如武漢亞洲心臟病醫院),以及沒有衞星圖像的醫院(如金銀潭),選定了6家醫院用於圖像分析。
從一個“全面”名單,砍到只剩6家……6家啊,這能有什麼代表性?
論文作者在2018年1月9日到2020年4月30日幾乎整整28個月裏,總共只蒐集到111張武漢衞星圖片,提取出140張醫院圖片。分攤到每家醫院,平均只有23張多,連每月一張都不到。因此,醫院數據有長達半年、甚至一年以上的跳斷。這又能有什麼代表性?

論文作者解釋,由於“缺乏商業價值”,武漢的衞星圖片比其他城市中心的相對較少,長時段存在多雲天氣與霧霾,甚至抱怨在向中國衞星公司獲取數據時“遇到挑戰”……但關鍵問題,難道不是數據不理想,就不要硬寫論文嗎?
作者還選中武昌火車站、漢口火車站、華南海鮮市場作為方法有效性的驗證(validation)。然而,這個驗證對象的選擇是錯誤的。
雖然中國醫院往往“人滿為患”,但從實際的就醫經驗看,上午、中午、下午醫院裏的人數多寡、等候的時間長度,都是不同的。
論文作者在討論時,其實提到了時刻問題,但出發點是規避高樓陰影,要用中午時的圖片。然而,全部選擇正午的衞星圖片是做不到的,只能選接近的時刻。但這近似就有問題了,上午11點和下午1點,完全可能是兩種出行模式。
如果數據對時間敏感,衞星又難以保證在每天同一時刻掠過目標上空,最需要驗證的是,不同時刻獲取的數據,能否真實反映當天醫院客流量的相對多寡。但火車站和時刻表相關,海鮮市場也不是醫院,這樣的驗證設置,毫無意義。
作者最後在“結果”的文字部分只提了驗證地點的照片數量是117張,沒有具體的分析,另在附圖中出現了天佑醫院與海鮮市場的比較。但令人驚奇的是,醫院有三張圖片,是2018年10月、2019年10月與2020年2月,市場卻只有2019年9月、2020年2月兩張圖片。

且不説時刻的問題,單看這個日期選擇,就是匪夷所思。2020年2月已經是封城的特殊時期,根本沒有比較的價值。如果作者想呈現特殊時期的情況,也應該同時提供與論文主旨——“早期疾病活動”相關(如2019年12月)的圖片,看看10月與12月的差別,以及2018年相應月份的比較。(不過需要再次指出,即使如此,也是有問題的,就像前面所説,流感季每年會有數量與時間前後的波動,僅比對兩年不合適。)
現在2018年市場圖片又缺失,無從比較,光有2019年的圖片有什麼用?這五張圖完全失去意義。
有人嘲諷説論文是本科水平,我覺得高中生都未必會這樣展示所謂的“驗證”吧?也許作者有什麼難言之隱?
用衞星監測整體就醫量,對於公共衞生可能有一定的參考意義,但在具體操作上有前面所述的種種困難與陷阱,可比較的數據不足,很難得到理想的結果。而且,在醫院系統內部有迅捷的數字統計與上報系統的情況下,並沒有優勢。如果要針對單一疾病,在原理上就有根本缺陷——無法從整體中辨別出單一疾病,這點遠不如醫院系統的直接統計。
至於搜索的信息,同樣有根本缺陷。某種症狀的搜索量增加了,當然有些提示作用,但一種症狀,往往對應許多種疾病,根本無從判斷是哪種疾病的患者增加,更不要説判斷有沒有新疾病了。
那麼,論文作者們為什麼在承認諸多不足時,依然對自己的方法頗有自信,非寫文章不可呢?我不揣測他們是否對中國有什麼主觀惡意,還是從論文分析。
他們在引言第二段裏就説:“數字流行病學和非傳統數據流,如衞星圖像和互聯網搜索趨勢,以前曾被用於呼吸道疾病監測”。
聽着好像很厲害啊,早有驗證呢。但看看這句話後面的兩篇參考文獻。
一篇是《H7N9流感與數字流行病學的重要性》,其實也不算是論文,是發在《新英格蘭醫學雜誌》上的“perspective”,可以稱為“熱點透視”。
但看下來,這“透視”裏也沒多少有價值的獨家信息。2013年3月31日,中國官方向WHO通報發現了H7N9流感,“透視”作者們的工作,只是看了下3月31日後,推特數量、中英文報道的數量、新病例和新增死亡的數量。
這只是爆發後的“數字流行病學”,又不是沒發現H7N9時的“早期疾病活動”,和新論文沒什麼關係嘛。
疾病曝光後,相關新聞、帖子數量當然增加,隨着新增病例歸零,輿論熱度也消退,拍拍腦袋都能想到。
另一項工作是從微博上找信息,比如附在文中的圖片,是4月3日流出的病例,作者的意思是要重視這種社交媒體上的信息。但當時官方都已經通報,這病例又能説明什麼問題呢?和早期監測、預警也無關。

我是搞不懂為什麼要引用這樣的文獻,一看作者,很眼熟啊,這John S. Brownstein不也是新論文的作者嗎?
再看第二篇參考文獻《利用從高分辨率衞星圖像獲取的醫院交通數據監測疾病趨勢》。稍微有點乾貨了,大意是在墨西哥、智利、阿根廷通過醫院的衞星圖片,經過一番操作,最終擬合出流感樣病例在病人總數中的比例,與停車數量的趨勢呈現一致性。
這篇參考文獻的主要作者也有John S. Brownstein,另一個Elaine Okanyene Nsoesie,也是所評哈佛論文的作者之一。
自己引用自己,玩得挺溜。這當然不犯法,但看上去,給人的感覺好像這套方法就是你們小圈子裏在玩啊。前面提到的那些根本性的障礙,在拉美的研究裏,為什麼就“神奇”地解決了呢?作者們是不是要好好反思下基本原理、數據獲取與處理的方法,甚至是否存在更嚴重的學術問題?
喜歡自引自high,還非要硬着頭皮寫論文,難怪論文公開後飽受批評,只有政客和西方媒體在吹捧;也難怪世衞組織衞生緊急項目負責人邁克爾·瑞安會説:“重要的是不要過多推測……因為本身並沒有證據表明實際發生了什麼……世衞組織將不會基於此類研究展開推測,因為其不會在提供支持和跟蹤疾病上產生幫助。”
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平台觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閲讀趣味文章。