《華爾街日報》:保護基因隱私為時已晚,數學原理揭示原因
Josh Zumbrun
遠至第五代表親之間共享的相同DNA數量之多,使得共同祖先成為唯一可能的來源。圖片説明:安德魯·布魯克斯/圖片來源/蓋蒂圖片社今年早些時候,俄勒岡州尤金市警方表示,他們已確認一名連環殺手身份,該男子在1986至1988年間犯下三起謀殺案。約翰·查爾斯·博爾辛格之所以能徹底逃脱追查三十年,是因為他早在1988年就已自殺身亡。
調查人員保存了犯罪現場的DNA樣本,近期通過將其輸入家譜數據庫,首先鎖定博爾辛格的遠親後最終確定其身份。這是執法部門利用家譜愛好者開發的技術,偵破日益增多的懸案中的最新案例。通過DNA樣本找到幾位二代表親、三代表親,再利用公開記錄重建兇手的家族譜系。
若你擔憂其中涉及的隱私問題,或許會想:“我絕不會把自己的DNA提交給這類網站。”
這想法看似合理?事實上,僅靠個人迴避早已無法完全保護基因隱私。通過遺傳學數學原理的簡要分析,就能理解為何現在能通過遠親追查到兇手——乃至任何人。
“如果有人想運用法醫家譜學家的技術,通過三代表親來追蹤你,他們完全做得到,“斯坦福大學隱私學者珍妮弗·金表示。
要了解你的基因可能暴露的程度,可以考慮一個不太為人所知的測量單位——釐摩(cM)。(它以托馬斯·亨特·摩根的名字命名,他因對果蠅的實驗在1933年獲得諾貝爾獎,該實驗揭示了染色體的遺傳方式。)如今你讀到的所有關於人們通過DNA和家譜研究發現未知聯繫的故事,其核心都離不開這個概念。
它衡量的是遺傳距離,具體來説,是由於共同祖先而兩個人共享的相同DNA片段的長度。
一般來説,人們大約有6,800釐摩的DNA。一個孩子從每個生物學父母那裏繼承一半的DNA——一組染色體。因此,孩子和父母將擁有大約3,400釐摩的匹配DNA。
(由於方法學上的細微差異,主要的測試公司報告的數字略有不同。)
每增加一個“親緣關係度”,共享的釐摩長度就會減半。與父母相差一個親緣關係度的叔叔或祖父母,平均共享的DNA數量減半,即25%,約1,700釐摩。再增加一個親緣關係度:表親或曾祖父母共享的DNA再次減半,約850釐摩。以此類推。
即使經過所有這些減半,遠至第五代表親的非常遙遠的親屬之間仍然共享如此多的相同DNA,以至於共同的祖先是唯一可能的來源。
“我認為大多數美國人沒有意識到這一點,”《迷失的家庭:DNA檢測如何顛覆我們的身份》一書的作者莉比·科普蘭説,“這是一個深刻的轉變。”
尋找遠親很容易,因為一個普通人擁有如此多的遠親:根據不同的方法,大約有200個三代表親,超過1000個四代表親,以及5000到15000個五代表親。
這不僅與犯罪現場有關。真正匿名的精子或卵子捐贈者、未知的父親或封閉的領養已經不存在了。這些都是涉及親子關係的秘密很容易被釐摩(centiMorgans)解決的例子。任何法院判決或保密協議都無法抹去這一科學。
一個不知道親生父母的被領養孩子仍然與該父母共享3400釐摩的DNA,並與該父母家族的眾多表親共享數百釐摩。這個孩子,或者幾代後這個孩子的後代,可以將他們的DNA上傳到一個數據庫中,通過尋找與其他上傳DNA的人的匹配,發現一些遠親。這足以重建他的家譜並識別出父母,即使父母從未上傳過他們的DNA——這與用於冷案DNA識別的過程完全相同。
倡導防止基因信息被濫用的遺傳學與社會中心副主任凱蒂·哈森表示,只有集體行動——而非個人預防——才能解決由此產生的隱私問題。
“目前,法醫系譜學應用仍處於高投入的新興階段,主要用於重大刑事案件和懸案調查,”哈森女士表示,“若缺乏切實可行的強制約束與法規限制,這類技術很難僅侷限於此領域。”
檢測規模極為龐大:根據國際遺傳譜系學會數據顯示,AncestryDNA擁有約2100萬樣本,23andMe存有1200萬,MyHeritage達560萬,FamilyTreeDNA則持有170萬份。
法律保護存在明顯空白。2008年《遺傳信息反歧視法案》雖禁止將基因數據用於健康保險與僱傭決策,但立法時未能預見當今檢測的普及程度、前沿醫學研究的多樣性,或是當擁有海量基因數據庫的企業破產時可能出現的狀況——比如數百萬人的基因數據(每個樣本都能匹配數千名遠親)在破產拍賣中被出售該怎麼辦?
在我的大家族中,有位遠親通過聯繫DNA匹配的陌生表親,發現其曾曾祖父並無血緣關係。所有新確認的表親都指向另一名祖先:1862年內戰期間,有位士兵曾與她曾曾祖母在同郡駐留一個月,約九個月後便有嬰兒出生。(應其要求隱去姓名。即便時隔160年,某些秘密仍令人難堪。)
這位內戰士兵、他在1862年短暫邂逅的女子,以及20世紀80年代俄勒岡州尤金的連環殺手之間,真正只有一個共同點:他們從未向檢測機構提交過DNA樣本。但這並不重要。他們的釐摩單位遍佈各處。
致信 Josh Zumbrun,郵箱:[email protected]
刊登於2022年5月21日印刷版,標題為《基因隱私缺失背後的數學原理》。