大數據和數據分析如何改變我們對城市的理解 - 彭博社
Richard Florida
2015年中國貴陽大數據博覽會。路透社工作人員 / 路透社關於城市與數據之間關係的炒作從未缺少,尤其是所謂的大數據。對於大量科技公司、城市,甚至越來越多的城市主義者來説,數據承諾解決各種城市問題,從預測性警務到改善交通流量,再到促進能源效率。
新型數據的一個更大潛在角色在於幫助研究人員和政策制定者更好地理解城市和社區是如何成長和演變的——但前提是要正確使用。
新數據的真正令人興奮的用途
越來越多的研究人員正在利用來自互聯網來源的數據,如谷歌、推特和Yelp,來開發對城市和城市變化的新見解。社會學家羅伯特·桑普森和傑基琳·黃使用街景圖像來研究種族在城市更新和社區轉型過程中的作用。同樣,來自英國空間經濟研究中心的一項研究利用Flickr上的地理標記照片來確定倫敦和柏林的城市化水平。來自Uber和Lyft的移動數據——甚至出租車——也在幾項最近的研究中被使用,我的CityLab 同事 勞拉·布利斯和前同事埃裏克·賈夫進行了詳細記錄。來自房地產網站如Zillow和Trulia的數據也被用來 分析各社區、城市和大都市區的房價趨勢。
彭博社城市實驗室對於租户來説,人工智能驅動的篩選可能成為住房的新障礙高盛測試傢俱銷售商Wayfair的債務需求新澤西-紐約市通勤者在最新的交通混亂中被困在公交車和火車上在創紀錄的炎熱夏季之後,空調強制要求的壓力增加其他研究使用了Yelp的評論數據來研究城市更新和不平等的城市消費模式。一項研究利用Yelp評論揭示了布魯克林的城市更新與種族之間的聯繫。另一項NBER研究利用Yelp數據來了解民族和種族隔離如何影響紐約市的消費水平。
Twitter數據已被用於繪製區域偏好和行為模式。一項研究來自牛津互聯網研究所,繪製了在線內容和思想在文化之間的流動。地圖博客漂浮的羊使用Twitter、谷歌和維基百科的數據繪製了從啤酒和比薩到大麻、保齡球和脱衣舞俱樂部的所有內容。而我自己的團隊使用了MySpace的數據來追蹤美國和世界各地流行音樂類型的主要中心。
新的數據分析的好壞取決於我們提出的問題和生成的理論,以更好地理解它們。最近,一支 意大利研究團隊結合了來自Foursquare和OpenStreetMap等多個來源的數據,以測試簡·雅各布斯關於城市活力和多樣性的理論,在六個意大利城市進行研究。他們的研究證實了雅各布斯關於短街區、混合土地使用、步行可達性、人才密集和城市公共空間重要性的許多關鍵見解。
除了來自網站的數據,衞星數據提供了在全球城市中積累系統性和可比較數據的可能性(之前幾乎沒有可用)。幾項研究(包括我自己的研究)使用衞星數據來獲取全球城市和大都市的經濟產出。而一項 2012年的研究在 美國經濟評論中使用衞星的光 emissions 作為全球城市空間組織和經濟規模的代理。雖然這些數據存在相當大的侷限性,但它至少提供了全球城市整體規模和經濟規模的粗略估計。
準確描述“大數據”
並非所有來自新來源的數據都符合“大數據”的標準,這個名稱本身就意味着真正龐大的信息量。倫敦經濟學院的馬克斯·內森將實際的大數據分為三個關鍵類別:來自Yelp、Twitter或Google等網站的互聯網數據和其他商業數據、由城市或城鎮收集的政府資助數據,以及人口普查和相關數據。一個例子是 2014年NESTA研究,該研究使用來自倫敦公司Growth Intelligence的大數據來繪製英國信息和技術企業的模式。另一個例子來自於一項 即將發表的研究,該研究在 美國社會學雜誌中使用來自數百萬個311服務請求的數據,以研究不同族裔居民之間的鄰里衝突。
根據內森的説法,大數據可以從“四個V”的角度來理解:多樣性、體量(數百萬或數十億的觀察)、速度(實時數據)和真實性(原始數據)。實際的大數據通常需要數據分析方法,如機器學習,來處理和從如此龐大的信息中提取意義。例如,卡內基梅隆大學計算機科學學院的持續 Livehoods項目 使用機器學習分析Foursquare上的1800萬次簽到,以確定八個不同城市的結構和特徵。當適當使用時,大數據和新的數據分析可以幫助研究人員識別城市結構和模式,而傳統的數據和方法可能無法單獨揭示。
一個特別好的大數據使用例子是哈佛和麻省理工學院研究人員的 最近NBER研究,該研究利用計算機視覺更好地理解收入和房價的地理差異。儘管論文涵蓋了很多內容,但也許最有趣的部分涉及使用谷歌街景預測2007年至2014年間波士頓和紐約的收入水平和房價。該研究將12200張紐約市的圖像和3600多張波士頓的圖像與2006-2011年美國社區調查的中位家庭收入和房屋價值數據聯繫起來。然後,它考察這些圖像中顯示的積極物理屬性(即大小和綠地等)在多大程度上吸引了更富裕的居民,並預測收入和房價。
最終,研究發現“圖像在街區組層面上可以比種族或教育更好地預測收入。”研究指出,大數據的一個關鍵目的在於幫助闡明較小地理區域在我們城市經濟中的作用,而這些在傳統人口普查數據中更難以獲取。作者總結認為,大數據提供了“某種希望,即谷歌街景和類似的預測將使我們更好地理解全球財富和貧困的模式。”
問題和侷限性
雖然大數據最終可能能夠推進我們對城市的觀察和理論,但越來越多的學者呼籲在使用時保持謹慎。一個2014年研討會彙集了大約40位領先的城市社會科學家和數據用户,確定了圍繞大數據的六個關鍵問題,涵蓋數據質量和兼容性、新分析技術的使用,以及隱私和安全問題。正如研討會總結所指出的:
開發與新方法和數據相配合的理論至關重要,但往往被擱置。工程和控制理論(或沒有理論的大數據)在有可測量結果、簡單政策進行修正以及反應時間足夠快以便在仍然適當時實施修正的情況下運作良好。在城市中,這是優化服務交付所使用的過程。但對於具有長時間跨度的複雜系統,如大多數社會系統,這一理論並不適用。
換句話説,大數據和新的數據分析僅僅取決於我們提出的問題和生成的理論,以更好地理解它們。無論它們多麼強大,新的數據來源和分析技術都無法真正替代對城市的細緻人類推理。當然,真正的力量在於使用這些新工具來檢驗和深化前沿城市理論的洞察。我的希望是,我們最終能夠以某種方式將它們結合起來,加深我們對社區、城市和城市區域的“城市基因組”的理解。