為什麼大多數推特地圖不可信 - 彭博社
bloomberg
CartoB,通過Twitter當地理學家 泰勒·謝爾頓、阿特·普爾圖斯* 和 馬修·祖克 決定研究肯塔基州路易斯維爾的基於種族的空間隔離這一棘手現象時,他們有幾個選擇。正如普爾圖斯在一次採訪中所説,他們可以“建立一個完整的研究[並]給[路易斯維爾居民]配備GPS追蹤器和日記。”但“這需要18個月的規劃和大量資金,”他説。“太多錢了。”
所以地理學家們選擇了更便宜、更快速的方式:Twitter數據。具體來説,他們從2012年6月到2014年7月期間,提取了570萬條標記為路易斯維爾的推文數據。
彭博社城市實驗室一位藝術家重新構想童年的空間,結果棘手房地產開發商納夫塔利在邁阿密海灘尋找交易,伴隨佛羅里達的推動美國的駕駛和擁堵率創歷史新高海牙成為全球首個禁止石油和航空廣告的城市當地理學家最初繪製路易斯維爾的推文地圖時發生了什麼。下面的地圖來自他們的 即將發表的論文,刊登在 景觀與城市規劃,顯示了2013年所有標記為路易斯維爾推文的1%隨機樣本。地圖上標記的第九街以西是以黑人為主的西區。在許多白人路易斯維爾人的心目中,研究人員寫道,西區是一個“根本上分離和獨立”的世界。該地區的 中位家庭收入為21,700美元,比該市主要是白人的東區低63%。西區居民中有13%失業,只有7%擁有學士學位。與東區相比,東區只有4%失業,55%擁有四年制大學學位。
謝爾頓,普爾圖斯,祖克從這張地圖中可以得出什麼樣的結論?首先,看起來第九街以西的居民發推文的頻率遠低於東邊的居民。因此,也許,社會科學家可能會假設,西區的推特用户確實較少。也許這又是“數字鴻溝”的更多證據,那些生活在國家最貧困和最不利的社區的人被排除在快速發展的數字時代之外,無法接入高速互聯網。如果路易斯維爾能夠讓西區上網,也許一些西區的問題就能得到解決。
這種推特映射技術很受歡迎,可能在去年夏天達到了頂峯,當時一張標記地理位置的用户發推標籤“弗格森”的地圖 本身就病毒式傳播。這樣的地圖似乎揭示了對重大國家事件的廣泛社會文化反應。“看看有多少人關心弗格森!”是那張特定推特生成地圖的隱含“哇,真厲害”的信息。但正如參與路易斯維爾研究的謝爾頓指出的,這種技術存在嚴重缺陷。
首先,請記住,實際上我們中相對較少的人一開始就在推特上——根據 皮尤研究中心的數據,僅有23%的美國人使用推特。但更重要的是,謝爾頓表示,推特映射者往往未能對其數據進行標準化,這意味着許多推特地圖並不是深刻社會現象的表現,而更多是人口模式的描繪。例如,謝爾頓説,弗格森地圖與“典型推文”並沒有實質性差異。任何病毒式傳播的內容——無論是#Ferguson,#Obamacare,還是#BachelorNation——在“趨勢”並點亮推特地圖時看起來都會相似。
#弗格森在2014年8月12日點亮了推特。CartoDB此外,這種“地圖上的點”方法並沒有教會地圖查看者關於推文密度的任何信息。看起來地圖上的一個點實際上可能是14個重疊在一起的點。一個推文從哪裏開始,另一個推文又從哪裏結束?研究人員如何調整針對垃圾郵件機器人,這些機器人通常會附着在熱門推特話題上自動推廣他們的商品?那麼“強力用户”呢?那些反覆用同一標籤瘋狂推文的人?
推特地圖的問題並不是社交媒體數據本質上有缺陷——而是製作它們的人變得懶惰。意識到這些缺陷後,地理學家們試圖為他們對路易斯維爾的研究增加一些背景。首先,他們追蹤了地理標記的推文,以發現特定用户大部分時間是在西路易斯維爾還是東路易斯維爾。並且,他們選擇了漸變的六邊形區域,而不是用點來繪製地圖。正如他們在研究中解釋的那樣:
[在]更大的數據集中,一名用户在路易斯維爾的第二街和市場街附近在六小時內創建了65條推文,但之後再也沒有從該地區推文。未經調整,這種活動會給予這65條推文與定期前往該地點的個人推文相同的權重,或者與只訪問一次但產生更少內容的個人推文相同的權重。
為了糾正這一點,研究人員選擇在任何給定的六邊形中映射每個用户最多五條隨機選擇的推文。
下面是他們修正後的地圖,主要是西區居民用紫色表示,東區居民用橙色表示。灰色區域是兩個地區的用户幾乎平等發推的地方。
謝爾頓,普爾圖斯,祖克與上面的原始數據地圖相比,這種技術得出的結論幾乎是相反的。路易斯維爾的西區居民實際上在四處活動併發推 很多。事實上,西區居民進入東區的可能性遠高於東區居民前往西區的可能性。那個重要的“第九街分界線”,似乎將城市分割成兩個獨立且不平等的世界?現在看起來更像是一個非常滲透的邊界。而且,超越地理標籤本身,檢查 東區用户推文的內容揭示了更多信息。
謝爾頓,普爾圖斯和祖克“天哪,我們在貧民區,”一位東區用户在越過第九街線後寫道。更有趣的是,許多東區用户在城市主要是白人和富裕地區時發推稱他們“在貧民區”。“最終,”研究人員總結道,“這些不一致性展示了城市空間想象與個體和集體的日常活動空間之間更復雜的關係,這通過地理標籤的社交媒體數據得以體現。”簡單來説:事情並不總是像不成熟的推特地圖所呈現的那樣。
那麼,Twitter 地圖的問題並不是社交媒體數據本身存在缺陷——而是製作這些地圖的人變得懶惰。“[當]你擁有這些巨大的 Twitter 數據集時……從上方看數據非常簡單,讓數據自己説話,然後就停在那裏,”Poorthuis 説。“這不是正確的停頓點。你需要通過更詳細地查看數據——變量和維度結合當地知識來進行背景化。”
“現在是2015年,”Poorthuis 説。“將這些點放在地圖上曾經很酷,也是一項工程挑戰。但現在是時候提出更深刻、更有意義的問題了。”
******更正:***本文的早期版本錯誤拼寫了地理學家 Ate Poorthuis 的名字。