數據科學家問:2020年人口普查有多準確?- 彭博社
Kriston Capps
一張航拍照片顯示了2021年8月5日的紐約自由女神像。攝影師:Ed Jones/AFP/Getty Images紐約的自由島,人口為0,已成為美國人口普查中不太可能的爭奪中心。
除了自由女神像,自2012年前監護人的住所被颶風桑迪摧毀後,島上再無人居住,使自由島首次在數百年來無人居住。
儘管如此,目前這座佔地12英畝的島嶼的官方人口為48。這是明尼蘇達大學人口統計學家在去年4月將自由女神像的座標輸入2020年人口普查演示時發現的有趣現象。這種人口激增並非完全錯誤。這是數字安全的產物,是對人口普查數據添加的特殊校準噪音的結果。這種統計上的誤導阻止了數字偵探將個人身份識別到單個人口普查區塊或微小博物館羣島的分辨率水平。自由島的48名居民是機器中的幽靈。
BloombergCityLab擁抱開放的設計師山本理研獲得2024年普利茲克建築獎移民憤怒淹沒了美國勞動力市場對工人的需求Muji 為日本的孤獨流行病提供了處方芝加哥將繼續推進改造空置的市中心塔樓計劃美國人口普查局一直實施這樣的隱私保護措施。2010年,人口普查正確地將自由島的人口計算為一對亞裔夫婦,但據《紐約時報》2018年報道,儘管管理員和他的妻子是白人。這是一種名為“交換”的隱私協議的結果,人口普查算法實際上將小地理區域的居民身份與地圖上其他地方的人互換,以防止任何精確的身份識別工作。
2020年人口普查的隱私預防措施更進一步。為了防止(令人恐懼地頻繁的)精密數據攻擊,美國人口普查局採用了一種被稱為“差分隱私”的安全範式。這種向數十億數據注入噪音的方法旨在防止用户不僅僅找到一個人,而是拼湊出整個畫面。該機構的新防禦方案,一種名為“TopDown”的算法,旨在保護該國的人口統計數據免受“數據庫重建”這種新威脅。這種攻擊可能被用來識別整個敏感人口。經過差分隱私保護後的合成數據 —— 計算機科學術語中指的是應用了這些保護措施後的表格 —— 應該可以防止這種情況發生。
數據隱私是有代價的,然而,隨着人口普查局在未來幾周發佈其用於重新劃分選區和其他目的的2020年數據,用户可能會看到數據在超局部級別的實用性(或表現出來的實用性)之間的權衡。差分隱私的批評者説,這是一個在尋找問題的解決方案。共和黨州長和美洲原住民領袖等各方正在就差分隱私如何影響他們的數據提出直接問題。另一方面,這項安全措施的捍衞者表示,保護美國人的機密性對於鞏固公眾對人口普查的信心至關重要。數據隱私不是一種奢侈品;它是法律要求的。
2020年9月,人口普查工作者站在紐約市林肯中心外。攝影師:Noam Galai/Getty Images North America越來越多,辯論沿着黨派線發展,從計算機科學家和社會統計學家之間的大多是理論爭論,演變為在聯邦法院的緊迫訴訟。這只是在發佈重新劃分數據後即將展開的戰鬥的前奏。2020年人口普查本來就是一個麻煩的事業:統計受到疫情挫折、政治詭計和預算短缺的阻礙。依賴人口普查數據的研究人員和其他人一直對人口普查局提供的數據質量感到焦慮。現在,一種保證數據隱私的複雜數學方法即將成為未來幾週中政治地圖上另一個極化但理解不足的維度。
“人口普查、選區劃分和重新劃分是美國最具衝突性的政治形式,而且是可以預測的,”哈佛大學定量社會科學研究所所長加里·金説道。“它們在歷史上經常導致暴力事件 —— 比如在州立法機構的地板上發生拳擊。這是一種極為原始的政治。”
製造噪音
在2016年選舉之後,金想要研究世界上最大的數據庫之一:Facebook。他多次前往舊金山灣區,説服該公司向哈佛的社會科學家開放其私人數據。研究人員並不是在尋找個人,他告訴Facebook,而是在尋找模式。
這是一次艱難的推銷,金説,在前往門洛帕克的又一次令人失望的遊説之後,他正在酒店房間裏收拾行李準備回家時,收到了Facebook發來的一封電子郵件,內容是關於一場涉及一家名為劍橋分析公司的醜聞,該公司通過挖掘了大約8700萬Facebook用户的數據來幫助當選總統唐納德·特朗普。幾天後,該公司召回了他。Facebook改變了主意。“市值一夜蒸發1000億美元,讓人警醒,”金説。
弄清楚如何訪問Facebook的數據幾乎和進入大門一樣困難。金説,當時Facebook讓某些員工獲得幾乎無限的數據訪問權限。授權員工簽出一台加密筆記本電腦,讓他們可以跨平台查看 —— 每個在Facebook上點擊的URL,點擊它們的用户的每個細節,以及更多 —— 但監管機構永遠不會給予學者這樣的訪問權限。這項任務是巨大的:研究人員需要在沒有預先出版批准的情況下編寫他們想要的內容,同時確保真實數據永遠不會離開Facebook的設施。
花了兩年時間才提出了一個系統,以授予外部學者訪問權限。解決方案是差分隱私:研究人員現在可以訪問一個隱私保護的Facebook用户數據集,其中包含40萬億個差分私密單元。
“我們的目標不是在一堆草堆裏找針,”金説。“我們的目標也不是弄清楚你是否在分享假新聞。我們想要弄清楚的是,哪種類型的人在分享假新聞。”
人口普查數據存在一些相同的問題,但適用範圍更廣,從社會科學到聯邦資金。從1990年到2010年,該機構選擇的隱私保護方法是交換或甚至抑制那些太小的數據值。目標是確保用户無法確定在任何給定地點是否有任何特定個體與人口普查描述的人相符。研究人員使用數據進行深入分析時,對所看到的內容應該越來越不自信。這種權衡被稱為隱私損失預算,在該領域中用 ε 表示,這是一個度量標準,其值範圍從完全數據隱私到完全數據準確性。
噪音是為了發佈聚合結果而必須付出的代價,而不是直接發佈數據。瞭解添加了多少噪音有助於科學家(以及間接地,領導者和選民)知道對結果應該抱有多少信心。但在過去,用於模糊人口普查數據的算法是一個嚴密保守的秘密。公眾無法知道由於這種安全性通過混淆的方法所添加的偏見(即對實際數字的更改)有多少。
“如果我們只是假裝數據準確並忽略測量誤差,那麼我們將得到錯誤的答案。我不知道替換數據而不告訴每個人的後果。可能很大,可能很小,”金説。“由於有這麼多東西是從人口普查中計算出來的,對這麼多人感興趣的數量,幾乎可以肯定,自1990年以來,成千上萬的學者和公眾人士做出的一些計算是錯誤的。完全錯誤。我們作為一個國家一直生活在其中,因為我們不得不在個人隱私和造福社會之間取得平衡。”
差分隱私使用户能夠知道引入了多少噪音,誤差邊界以置信區間來衡量。雖然差分隱私的機制很複雜,但最終噪音總和為零,這意味着它不會在結果中引入任何偏差。對於非常小的地理區域(如人口普查區塊),這種噪音可能表現為難以解釋的數字:0或48甚至負數。但在更大的分辨率(鄰里、城市或州),噪音會逐漸消失。
2020年8月,一台帶有人口普查2020年訪談問卷的平板電腦。長期以來,不完整的問卷一直是人口統計學家的統計“噪音”來源。攝影師:Patrick T. Fallon/Bloomberg人口普查受訪者也會通過不回答問題來引入他們自己的噪音,這是人口統計學家通過從其他行政記錄中推斷正確答案來解決的一個長期惱人的問題。“在我們不使用差分隱私的對照世界中,這不是一個擁有完美數據的完美世界,”賓夕法尼亞大學計算機與信息科學教授亞倫·羅斯説。
隨着2020年人口普查,潛在風險不僅僅是個人身份。Roth解釋説,通過對足夠多問題的準確回答,一個複雜的用户可以解決整個數據集。只是解決足夠多的代數問題的問題,過去40年數據庫重建變得更容易。人口普查局將這種曾經理論上的威脅視為一種明顯而迫在眉睫的危險。保護人口普查法律規定的保密性意味着確保這些數據泄露不會發生。
“如果你已經決定,無論出於什麼原因,公佈每個人的個人記錄都是一件壞事,那麼你也必須已經決定,公佈足夠多足夠準確的聚合統計數據也是一件壞事,因為這將使某人能夠恢復這些數據,” Roth説。
嚴重威脅,還是乾燥的辯論?
2016年11月,人口普查局對自己進行了數據庫重建攻擊。局長科學家約翰·阿博德組建了一個精英團隊,使用摘要表格重建了每個美國人的2010年人口普查記錄:性別、年齡、種族、族裔和街區級別位置。兩年後,該團隊完成了這個項目,為2010年人口普查表中的近80億個數字組裝了一個幾乎完整且高度準確的匹配。使用相同的方法和現成軟件,紐約時報能夠為曼哈頓複製這一過程。阿博德描述了數據庫重建的前景為“公共使用詳細表格和微數據集的喪鐘,因為它們一直以來的傳統準備方式。”
當人口普查局正在意識到21世紀的數據攻擊時,特朗普政府試圖在2020年的人口普查中添加一個公民身份問題,引發了全國對極端黨派利益操縱的警報。儘管這一努力失敗了,人口統計學家仍然指出公民身份問題來支持更嚴格的數據安全。一個最糟糕的情況已經發生:在第二次世界大戰期間,人口普查局向戰爭部門提供記錄,以識別成千上萬的日裔美國人並將他們重新安置到拘留營。
如果惡意行為者獲得了被泄露的人口普查數據,他們可能會做些什麼?差分隱私的支持者提出了一些假設情況。例如,美國住房和城市發展部門可以使用人口普查數據找到那些濫用第8款優惠券的家庭。家庭暴力施虐者可能會發現這些數據對追蹤受害者很有用。人口普查數據可能會揭示那些不希望公開的人的性取向。
儘管存在這些不祥的情景,差分隱私的批評者表示,安全風險被誇大了。
“隱私很重要。我們需要採取一些披露控制措施來保護人口普查受訪者的隱私,”明尼蘇達大學社會研究與數據創新研究所的空間分析主任大衞·範·瑞珀説。“我不確定在十年一次的人口普查中發佈的數據是否需要差分隱私。”
或者正如他的明尼蘇達人口中心同事史蒂文·拉格爾斯所説:“整個問題都是虛構的。”
拉格爾斯已經成為對差分隱私的需求最為強烈的反對者之一。作為全球最大的人口數據庫IPUMS的主任,拉格爾斯抨擊了人口普查局提出的每一個論點。他利用人口普查數據演示,警告存在着沒有成年人報告為居民的“蠅王”式區塊和其他邊緣怪異現象。拉格爾斯表示,任何人會花費數百萬美元來重建人口普查以獲取其數據(年齡、種族、性別、種族等等)的想法是完全荒謬的。他説,唯一威脅濫用人口普查數據的實體是美國政府,這一事實也得到了圍繞人口普查的公眾恐懼的證實。他還表示,該機構的數學也是錯誤的:在即將發表的一篇論文中,拉格爾斯和範·瑞珀表示,人口普查局的數據庫重建實驗的表現並不比基於隨機猜測的構建人口更好。
“這是約翰的科學項目,”拉格爾斯指的是阿博德和差分隱私。“他讓很多人對這種並不存在的嚴重威脅感到擔憂。”
“在我們保護數據的熱情中,我們正在傷害我們正在保護的同樣的人。”
差分隱私的另一位批評者指出了更廣泛的學術分歧。加州大學戴維斯分校的計算機科學教授諾姆·馬特洛夫表示,計算機科學家和統計學家對世界的看法不同,在他們之間持續不斷的衝突中,統計學界正處於劣勢。馬特洛夫將差分隱私描述為一個“強大的力量”,已經主導了這一領域。他説,統計學家更加敏感於整個合成數據概念可能會侵蝕公眾對人口普查項目的信心;他説,對差分隱私的很多公眾反對意見歸根結底都是出於這個原因。
“任何一種隱私措施在某種程度上都是合成的,”馬特洛夫説。“在人口普查對差分隱私的方法中,每一份數據都將是合成的,而不是數據交換,那裏只有一小部分數據被交換。”
範·瑞珀表示,他希望人口普查局發佈更多研究,展示在差分隱私和其他披露規避技術下,不同人口普查研究產品的比較情況。
根據兩名未獲授權發言的機構人員透露,一個由九名團隊成員組成的團隊確實進行了這樣的審查 —— 該項目甚至贏得了內部工作獎 —— 但結果並未公開。人口普查局沒有回答有關該項目的問題。
拉格爾斯同意,如果整個人口普查被海盜或顧問以某種方式重建,那確實會對人口普查造成打擊 —— 但他認為這種可能性不大。此外,他説,人們可能會對此不屑一顧或將其加入他們對調查的其他擔憂中。“人們經常對人口普查提出各種指控,包括他們將這些數據提供給國税局,並將其用於抓捕移民,”他説。“一般來説,我相信這些對回應率是有害的。如果有人聲稱成功發動了攻擊,我認為這不會更有害。”
支持差分隱私的人承認,不可避免的權衡也可能影響人們對人口普查的看法。這是一個關於政策、民主的問題,是否應該犧牲一定程度的數據隱私來換取更大的數據效用。但對於像自由島這樣一個小地方的統計數字看起來如此離譜,這並不是一個缺陷,而是一個特性。這是為了保護特別脆弱的社區。
“對於這些人口中的特定成員來説,對他們來説什麼更有價值?”羅斯説,“Steve Ruggles得到關於他們的準確統計數據,還是他們擁有更強的隱私保護?”
一個解決方案:雙重數據集
三月份,阿拉巴馬州 提起訴訟反對美國商務部使用差分隱私進行選區數據的初步禁令。 另外十六個州,其中大多數由共和黨領導,為原告提交了友情意見書。歷史學家 Margo Anderson,撰寫了多部著作關於人口普查的書籍之一,也是20年前揭示人口普查局在日裔美國人拘禁中所起作用的學者之一。
阿拉巴馬州輸掉了它的挑戰,主要集中在推動更快發佈重新劃分數據。但它提出了一些關於新隱私措施如何影響重新劃分的高層問題。例如,根據簡報,猶他州立法機構使用演示數據報告失去了近1.5萬居民。兩個小鎮失去了一半的人口。人口普查局的 電子郵件揭示了內部對安全措施的分歧。“數據必須反映現實世界中所見的情況,因為它被用來改變現實世界與自身及政府的互動方式,”人口普查局重新劃分和選舉權數據辦公室主任詹姆斯·懷特霍恩在2020年9月寫給阿博德的一封電子郵件中寫道,該電子郵件被包括在 阿拉巴馬訴美國商務部的陳述中。“這並不意味着我不理解我們保護公眾數據的義務,只是看起來在我們保護數據的熱情中,我們正在傷害我們正在保護的同樣的人。”
其他各方也在2020年人口普查之前發表了看法。代表美洲印第安人和阿拉斯加原住民(AI/AN)部落國家的美國印第安人國家大會(NCAI)在過去兩年中概述了其對原住人口的負面影響的擔憂。最近,該組織對阿拉巴馬訴訟揭示的內部機構溝通提出了異議。電子郵件討論了一個提議,即通過確保他們擁有更高的隱私損失預算來使部落地區的計數“基本不變” — 這意味着部落地區的小區塊中的噪音更少。一個局方官員在2020年10月的一封電子郵件中反對了這一建議:“我們不能承諾做一些明顯讓一個種族羣體獲得優勢而損害其他所有人的事情。”
在2021年5月致人口普查局的一封憤怒信中,NCAI指出,在2020年11月的人口普查演示和隨後的2021年4月之間,更多部落人口顯示出減少。結合在阿拉巴馬州訴訟中的揭示,這一初步發現引發了令人不安的擔憂:可以調高ε值的同一管理層也可以將其降低。如果人口普查局由於種族或族裔問題而使部落地區的任何數據不夠準確,NCAI首席執行官丹特·德西德里奧在信中寫道,那麼該機構就犯了“一個重大而不祥的錯誤”。
至於阿博德,他在阿拉巴馬州訴訟的補充聲明中辯稱,所有ε旋鈕(“數百個可微調參數”)都是更大人口普查機器的一部分 —— 這個機器“不會也不會將更大的隱私損失預算分配給任何特定的人口統計學組或子組”。
人口普查局有一個主要工具來試圖消除區塊級別的任何混亂。為了避免由噪聲引起的任何令人費解的結果 —— 分數人口、負計數等 —— 人口普查算法會用整數替換不合理的數字。在這個後處理步驟中,州級人口保持恆定,這意味着失去人口計數和獲得人口計數的地區之間存在零和。雖然這一步驟使數據看起來更友好,但後處理引入的偏見可能是顯著的。
“在後處理文件中,它往往會使分隔區域看起來更加分隔,而不那麼分隔的區域看起來更少分隔,”哈佛法學院選舉法診所主任露絲·格林伍德(Ruth Greenwood)説。“在重新劃分選區的背景下,這可能是一個問題,因為你試圖確定有色人種居住的地方,並應該能夠在一個選區內一起投票選舉自己選擇的候選人。如果數據沒有準確地反映地面上正在發生的情況,那麼很難在法庭上提出他們應該擁有的政治權力。”
在7月26日的一篇波士頓環球報*(Boston Globe)*的專欄中,三位哈佛學者(格林伍德、金和辛西婭·德沃克(Cynthia Dwork))提出了一個解決方案,他們稱這個方案將滿足所有(或大多數)批評者的要求:發佈醜陋數據,“有噪音的測量”數據文件,並信任研究人員和分配者去做他們的工作。將其與後處理文件一起發佈,以滿足對簡單整數的普遍需求。“後處理文件非常適合媒體向公眾展示,‘這是一個點密度地圖,大致上發生了什麼。’它為你提供了地面上正在發生的情況的表現,”格林伍德説。
這篇專欄的三位合著者在該領域有很大影響力:金髮明瞭用於確定選區劃分中種族和黨派偏見的測試,該測試是根據《選舉權法案》制定的。格林伍德在美國最高法院之前曾處理過多起重新劃分選區的案件。德沃克是發明差分隱私的科學家之一。他們將這種雙數據集解決方案描述為“阿拉巴馬州和拜登政府商務部能夠達成一致的罕見情況。”拉格爾斯和範裏珀表示,他們認為發佈兩個2020年人口普查數據集沒有問題,即使他們對差分隱私的擔憂沒有改變。
到目前為止,格林伍德表示,這篇社論還沒有引起人口普查局的回應。
雖然現在已經太遲解決大部分困擾2020年人口普查的其他問題,但該機構仍然可以發佈數據文件,解決至少一些州在重新劃分選區時將面臨的問題。這可能對面臨查詢失敗前景的人口統計學家來説是一種苦澀的安慰。而要解釋為什麼人口普查故意顯示自由島上空無一人,仍然是一項艱鉅的任務。
隱私陣營表示,他們認為這樣做比有一天美國人醒來發現整個人口普查被黑客攻擊要好。
“認為人口普查人員就是真實的人是錯誤的,”格林伍德説。“有真實的人,還有人口普查所描繪的那些人。”