構建智慧城市的智能、安全方式 - 彭博社
bloomberg
麥迪遜·麥克維/城市實驗室你不需要深入挖掘就能發現開放數據倡議可能出現的問題。只需回顧2014年,當時紐約市出租車和豪華轎車委員會發布了數億條關於城市出租車行程的記錄,數據經過匿名處理以保護可識別的細節——至少在理論上是如此。實際上,這些數據以一種格式記錄,使得一名軟件工程師可以 重新識別出租車和司機的牌照號碼。一名 Gawker 記者隨後將其與 在城市中乘坐出租車的名人 關聯起來,推測他們所走的路線,甚至他們給的小費。
彭博社城市實驗室麥格理的新總部被稱為“迷你人”阿根廷毒品販運熱點謀殺案激增在一個年輕人的城市裏,市長的標誌性政策是學校午餐機器人出租車對公共交通並不友好這當然不是有史以來泄露或被黑客攻擊的最敏感數據,但它確實重要地説明了城市在發佈來自其眾多組成機構的數據時面臨的風險;這些影響往往在信息進入公共領域後很久才顯現出來。
近年來,隨着西雅圖大都市區發展成為一個繁榮的科技中心,該市在發佈公共數據方面開創了一種進步且經過深思熟慮的方法。市政府正在慢慢而堅定地制定他們希望能成為全球“智慧城市”模型的計劃。這個計劃的一個關鍵部分是在2016年,當時該市通過了一項決議,規定所有市政數據將“優先開放,”而不是“默認開放”。正如西雅圖信息技術部的開放數據項目經理大衞·道爾所解釋的,這一額外的謹慎措施旨在使城市在一開始就更加審慎地對待其數據實踐。
“政策最初是以‘默認開放’為目標制定的,但考慮到隱私等因素,這並不真正可行,”他説。“西雅圖採取了一種更為細緻的優先開放的方法:這意味着在我們減輕隱私風險、發佈個人身份信息和其他類型的傷害後,我們可以開放[數據]。”
從本質上講,默認開放政策意味着“先發布,後提問”:所有市政府機構收集的數據集——警察局、住房管理局、交通部門等——將在線發佈,除非有明確的理由不這樣做。優先開放則意味着一種更為審慎的方法:市政數據集會主動評估,以便在可能的情況下發布,但僅在經過市政府官員審查後。
在一個例子中,道爾解釋説,城市的老齡化和殘疾服務的數據被髮布,以支持一個專注於解決可及性挑戰的黑客馬拉松。由於關於殘疾、收入、種族和確切位置的數據極為敏感,來自多個部門的團隊共同合作,將其分組為社區段和年齡段,減少可識別性,同時仍為活動參與者提供有用的資源。
作為2016年開放數據決議的一部分,西雅圖還承諾每年公開發布其開放數據計劃的風險評估。今年,專注於隱私的非營利組織隱私未來論壇(FPF)被委託承擔這一任務,最終在8月發佈了一份草案報告,目前正在接受公眾意見。
該報告不僅旨在分析城市在數據發佈方面的進展,還旨在制定一個評估開放數據倡議整體風險的框架。其目的是列出明確的標準,以判斷髮布某個數據集的利弊,從而得出一個可以指導如何進行決策的評分。
然而,正確評估隱私泄露的風險是一項困難的任務:某些個人數據很容易被歸類為過於敏感而不適合公開發布——社會安全號碼就是一個例子,或者至少應該是。但其他數據則處於灰色地帶。例如,公開某些醫療信息對流行病學研究很重要,但關於特定醫療狀況的細節不應能追溯到個別患者。
為了獲得敏感但不秘密類別的潛在好處,數據通常在發佈之前會被匿名化——但真正保證匿名性遠比説起來容易。在2000年一項廣泛引用的研究中,哈佛大學教授拉塔尼亞·斯威尼(當時在卡內基梅隆大學)發現,87%的美國人僅憑 性別、出生日期和郵政編碼 就可以在數據集中被唯一識別。然後可以與選民記錄交叉引用,以按姓名識別每個人。
這是像西雅圖這樣的城市在嘗試發佈匿名數據時面臨的核心問題:當孤立時不具識別性的細節在組合時可以輕易變得唯一。
鑑於數字時代對隱私控制的迫切需求,得知個人識別信息的法律定義已經幾十年沒有更新可能會讓人感到驚訝。在美國,“個人識別信息”是一個具有特定含義的法律術語,出現在 1974年隱私法中;但該法律在識別信息和非識別信息之間劃定的界限忽視了現代信息安全的現實。
“問題在於,作為一個實際的技術問題,這是一種沒有意義的區分,”民主與技術中心的政策顧問約瑟夫·傑羅姆説。“當你查看開放數據政策時,存在一個問題,即可以將多少不同的間接標識符放入數據中,才能得到完全識別某人的信息。因此在某種程度上,這是一場法律政策辯論,但它也是一場技術辯論……而答案並不明確。”
辯論的複雜性在於需要發佈對分析有用的信息,同時又要保護用户隱私,這兩個因素往往是直接對立的。從技術上講,如果組內每個個體在每個變量上的得分完全相同,那麼數據的識別性最低——但這樣數據實際上是毫無意義的。根據定義,有用的數據必須在某種程度上具有識別性,並且必須對兩者之間的界限做出判斷。
作為指導,統計去識別化專家Khaled El Emam建議任何數據集應包含不超過六到八個間接標識符,並且應進行修改以確保達到一定的“k-匿名性”:這個術語意味着即使通過組合間接標識符,始終會有最少數量的個體共享相同的值,從而使得沒有任何記錄是完全獨特的。
所有這些技術和法律限制使得城市很難知道數據是否已經處理得足夠好,可以安全發佈。市民更難知道他們是否可能從給定的數據集中被識別出來。更復雜的是,市政府與私人公司不同,可能還會被迫根據公共記錄法披露信息。
正是這種情況導致紐約的出租車和豪華車委員會發布了不足以匿名化的出租車行程數據。如果不是因為一位信息自由活動家的請求,這些數據本來不會被公開披露。
丹·貝瓦利是國家信息自由聯盟(NFOIC)的執行董事,該聯盟由倡導開放政府的公民社會團體組成。儘管他的組織遊説以實現更大的透明度,但他也意識到謹慎的必要性,並建議為公共記錄請求預算更多的時間和資源,以幫助在不限制信息獲取的情況下實現這種平衡。
貝瓦利説:“我們看到一個需要更多專業化的領域,那就是公共記錄管理者。我們認為必須提供更多的正式培訓,主要是因為立法的變化和技術在管理信息和溝通中的日益使用。”
他還認為,公共機構可以更積極地提前發佈經過適當清理的信息,從而減少在回應公共記錄請求時處理不當披露的風險。但儘管貝瓦利和其他專家在塑造開放數據辯論中發揮着關鍵作用,但徵求最大利益相關方的意見也是至關重要的:公眾。
FPF在西雅圖的評估的公眾發佈和諮詢期是朝着這一目標邁出的一步,並且在實踐中,也與面對面的外展活動相結合。項目經理大衞·道爾經常在會議和其他活動中發表演講,比如西雅圖公共圖書館的開放數據素養系列。儘管如此,他承認:“這確實是一個很難向公眾解釋的話題。”
根據政策顧問約瑟夫·傑羅姆的説法,如果我們想要促進開放性,我們也應該尊重那些不想參與的人的選擇。
“我認為我們需要促進的不是個人的能力,而是社區的能力,讓他們能夠選擇不參與這種事情:我認為這是選擇退出能夠發揮作用的層面,”他説。
儘管如此,傑羅姆表示,這在實際操作中並不明確;尚未出現任何大規模的開放數據選擇退出,或許這表明了實施這一過程的困難。
隨着開放數據運動的不斷發展,圍繞利弊的辯論能夠以適合該主題的透明度進行是很重要的。並不是所有城市政府都具備像西雅圖那樣的財務資源或技術知識,但全國各地的小型政府仍然可以從大城市的成功與失敗中學習。