美媒:谷歌流感趨勢預測頻出錯 引研究者思考
作者:赵小侠
【環球網綜合報道】據美國《商業週刊》網站3月14日報道,谷歌於2008年開發的谷歌流感趨勢(Google Flu Trends)---跟蹤分析流感關鍵詞搜索數據,創建流感趨勢即時地圖,其預測效率遠優於美國疾病控制與預防中心(Centers for Disease Control and Prevention, CDC)。然而,近來谷歌流感趨勢的預測頻頻出錯,引發了研究者的思考。
據報道,去年,《自然》雜誌刊文稱,谷歌流感趨勢預測的流感病例數幾乎是CDC統計數據的兩倍。《科學》雜誌最新論文也指出,谷歌流感趨勢高估流感峯值的情況屢見不鮮。而兩大重要原因--數據過擬合和算法變化影響了其預測結果。
一方面,谷歌流感趨勢容易出現數據過擬合:很多關鍵詞看似與流感相關,但實際並無關聯,即偽相關。谷歌流感趨勢需對比5000萬個詞條的搜索率和已知流感發病率,統計其匹配情況,難免出現毫無關聯卻完成匹配的案例。以高中籃球為例,谷歌開發人員稱,高中籃球和流感通常發生在冬天,因此籃球和流感相關搜索頻率和時間分佈十分匹配,導致籃球粉絲容易被當作流感患者。
另一方面,由於谷歌不斷調整和完善搜索算法,不同時期搜索相同的流感關鍵詞,得出的結果可能完全不同。此外,谷歌的相關搜索功能可能增加流感關鍵詞的搜索次數,從而影響了預測結果。據研究報道,谷歌流感趨勢的程序員無法提供適應谷歌算法變化的研究算法。美國東北大學政治學家、論文作者之一大衞·拉澤(David Lazer)稱之為“模型偏離”(model drift)。
報道指出,拉澤表示,“流感相關搜索和流感發病率之間的關係可能隨時改變,而谷歌流感趨勢忽略了這一點”。此外,他認為,谷歌流感趨勢預測出錯提供了更多經驗教訓:首先,谷歌、Twitter和Facebook的設計初衷並非用於研究,它們常常發生變化,並且內部運作情況不透明,因此將其用於科學研究存在風險。另外,掌握大數據不等同於擁有良好的數據。(實習編譯:餘順遂 審稿:趙小俠)