流感欺騙了谷歌維基百科能做得更好嗎? - 彭博社
Joshua Brustein
每年在美國,流感導致的死亡人數從3000到50000人不等。公共衞生官員面臨的主要挑戰之一是儘早識別流感季節的獨特形態。波士頓兒童醫院的兩位研究人員週四發表的一項新研究為他們提供了一條捷徑:維基百科。通過分析該網站上35個與流感相關頁面的流量,David McIver和John Brownstein表示,他們可以比疾病控制與預防中心提前兩週確定流感水平。
這項研究不可避免地會與谷歌流感趨勢進行比較,後者在過去七年中利用與流感相關的搜索詞數據在地圖上繪製疫情。(Brownstein和McIver曾擔任該項目的顧問。)這兩個項目都聲稱比傳統公共衞生機構(如CDC)更快,基於的假設是,關於流感症狀的網絡搜索會在就醫之前進行。谷歌流感趨勢的結果被視為大數據分析的勝利——直到結果被證明不如最初認為的那樣具有前瞻性。上個月發表在科學上的一篇論文顯示,谷歌在2011-12流感季節的108週中高估了100周的流感流行率。
谷歌的技術結果顯示,容易受到所謂的過擬合影響,這意味着搜索引擎傾向於將無關的搜索計為匹配。該公司首先尋找與流感病例同時激增的搜索詞,然後跟蹤這些詞的未來實例。在這樣做的過程中,它捕捉到了一些與無關現象相關的搜索,例如高中籃球,其賽季與流感季節相對應。谷歌也低估了自己的説服力。2012年搜索一個流感相關詞的人,往往比早些年的人更頻繁地查找其他流感相關詞,因為谷歌在建議相關搜索方面變得更好。但流感趨勢並沒有調整其模型來考慮這一點——根據發表在科學上的研究,它只是看到了更多的搜索。
麥克艾弗和布朗斯坦打賭維基百科不太容易受到疑病症的影響。他們表示,他們的模型在識別流感相關活動最多的一週時,比谷歌的準確率高出17%,並且在任何給定周內更有可能正確判斷流感水平的強度。在線百科全書也更容易研究:谷歌的數據實際上只對公司可用,而維基百科則向無關研究人員提供更廣泛的訪問權限。
谷歌仍然有一些優勢。維基百科的數據不包括位置信息,因此模型僅説明流感在全國範圍內的情況,而流感趨勢實際上在地圖上繪製了年度疫情。此外,麥克艾弗和布朗斯坦的研究查看了舊數據,並根據他們已知發生的情況進行了測試。他們的研究尚未在流感季節的即時中進行測試。
不過,這不僅僅是一個競爭,旨在找出哪個參考網站是最好的流行病學羅塞塔石。McIver 和 Brownstein 是貪婪的數據分析者。他們所做的其他研究包括檢查 Facebook 點贊以追蹤肥胖趨勢,觀察 OpenTable 的取消情況以尋找疾病爆發的證據,以及通過爬取 Yelp 評論來研究食物中毒。
所有這些研究至少有一個共同的問題:它們只能確定相關性,而不能確定因果關係。研究人員正在努力將他們的在線大數據發現與小數據技術結合起來,例如一個名為 Flu Near You 的在線投票網站。願意告訴該網站他們感覺如何的用户可以看到彙總數據,顯示附近有多少人感到生病的趨勢。Brownstein 説,大約有 100,000 人註冊了 Flu Near You,他和 McIver 正在嘗試通過激勵措施吸引更多用户。
前進的道路可能是所有這些技術的某種組合。McIver 説,每種數據收集和分析形式都有其缺陷。問題不在於維基百科或谷歌是否比 CDC 更好,而在於每個網站可以添加什麼信息。“也許一個更及時,一個更敏感,”McIver 説。“最終將是不同數據流的結合。”