指紋究竟是不是獨特的?本科生頂刊發文遭法醫界質疑_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!昨天 11:05
此刻閲讀這段文字的你,或許在點亮手機屏幕時,就已經用到了指紋識別。哲學家萊布尼茨曾説,世界上沒有兩片完全相同的葉子。指紋識別基於同樣的信念:每個人的指紋都獨一無二、與眾不同;即使對來自同一人不同手指的指紋,也是如此。而現在,一名本科生帶領團隊在Science Advances發表論文,試圖用AI挖掘它們之間的相似之處。
撰文 | 周舒義
1
緣起
“你覺得,指紋是獨一無二的嗎?”
三年前在和教授的一次閒聊中,Gabe Guo被這樣問道。彼時他剛被哥倫比亞大學錄取,正憧憬着自己的大學生活。他沒有料到,正是這次閒聊,為自己後續三年的研究重心打下了伏筆。
現在, Gabe Guo試圖對前述問題給出否定的回答。1月12日,計算機科學專業本科在讀的他領導團隊在Science Advances發表論文,證明人工智能可以判斷兩枚來自不同手指的指紋是否來自同一個人,揭示了同一人不同手指的指紋之間具有驚人的相似性。
乍一看,新結論似乎打破了我們對指紋的固有印象。畢竟,在流行觀念中,往往更強調指紋的獨一無二、不可重複,即使對來自同一人不同手指的指紋,也是如此。發軔於19世紀的現代指紋識別技術同樣基於上述信念。一本出版於1921年的大學教材這樣寫道:
“有一點我們深信不疑,那就是:沒有兩枚指紋是相同的。我們可以從許多人那裏提取成百上千枚指紋,但不會有兩枚指紋的每個細節都毫無二致。可能會有兩枚、甚至更多的指紋總體看來大致相同,但即便如此,在仔細檢查後還是會發現它們之間的巨大差異。”
基於以上性質,指紋識別已成為辨別身份的重要手段。下面是一個直觀的例子,可以説明指紋識別的可靠性——即使是外貌看起來極為相似的人,他們的指紋也會千差萬別:
來源:Harris Hawthorne Wilder and Bert Wentworth. Personal Identification: Methods for the Identification of Individuals, Living Or Dead.
2
異中之同
黑格爾曾説:“假如一個人能夠看出當前顯而易見的差別,譬如,能區別一支筆與一頭駱駝,我們不會説這個人有了不起的聰明。同樣,另一方面,一個人能比較兩個近似的東西,如橡樹與槐樹,或寺院與教堂,而知其相似,我們也不能説他有很高的比較能力。我們所要求的,是要能看出異中之同和同中之異。”
Gabe Guo決定找出指紋的異中之同。他帶領研究團隊,通過訓練孿生神經網絡,來比較兩個指紋樣本間的相似度。他們輸入指紋樣本,通過卷積神經網絡將其轉化為嵌入高維空間的表示向量,使用向量間的距離來表徵樣本間的差異。
模型首先使用來自MSU的PrintsGAN訓練集進行預訓練,這是一個由生成式對抗網絡創建的人工數據集,其中包含來自35000個虛構身份的525000張合成指紋圖像;接着使用多個真人數據集進行微調,其中包含來自927人的53315個指紋樣本;最後使用來自133人的7703個指紋進行測試。
在訓練過程中,研究人員向模型輸入三組圖像:一個人的指紋作為“標準答案”(錨示例,anchor,表徵向量為a),來自同一人不同手指的指紋作為正例(positive,表徵向量為p),來自其他人的指紋作為負例(negative,表徵向量為n)。通過梯度下降來最小化三元組損失函數L(a, p, n) = max {d(a, p) − d(a, n) + α, 0} (d表示歐氏距離,α為超參數),從而在向量空間中以錨示例為錨點,“拉近”正例,“推遠”負例。
訓練結果顯示,與不同個體指紋間的向量距離相比,同一個體指紋間的向量距離顯著更短,單邊t檢驗(α=10^(-4))P<0.0001。此外,模型“看到”的正例和負例數量相等,也就是説隨機判斷兩枚指紋來自同一個人的正確率為50%,而在測試中神經網絡表現出了77%的正確率。這意味着,同一人的不同指紋並非截然不同,而是存在相關性。
3
多次被拒
三年耕耘終於開花結果,論文發表卻並非一帆風順。他們迅速將成果發給了一家知名法醫學期刊,等待幾個月後,收到的卻是冰冷的拒稿信。審稿人和編輯的回覆斬釘截鐵:“眾所周知,指紋是獨一無二的。”此後研究團隊輾轉多家期刊,屢屢碰壁。Gabe Guo沒有法醫背景,他回憶,“起初在法醫學界有很多反對意見。”多數審稿意見認為,訓練集太小,不足以質疑指紋的獨特性。
研究團隊沒有放棄,他們擴充訓練數據,多次迭代修改論文。“在頭兩輪修改過程中,他們説眾所周知,沒有兩枚指紋彼此相像。我想這反而有助於改進研究,我們不斷輸入更多數據,直到最後證據確鑿。”
在意識到法醫學界持懷疑態度後,團隊選擇轉向綜合性期刊,卻又碰了釘子。這一次,參與研究的哥倫比亞大學機器人專家Hod Lipson決定發起申訴,“我通常不會置喙編輯的決定,但這項研究太重要了,不容忽視。”他表示,“假設(犯罪)現場A有一組指紋,現場B有另一組指紋,它們來自不同的手指,很難將這兩個現場聯繫起來。但通過這個系統,你就能判斷這兩組指紋是來自同一個人。”
“如果這些信息能成為關鍵力量,那麼我想懸案可能會柳暗花明,甚至無辜的人可能會被無罪釋放。”
Gabe Guo也認為,新發現有助於刑事調查。“最直接的應用是,對於那些犯罪現場遺留指紋和檔案記錄不同的懸案,它可以提供新線索。另一方面,這不僅有助於抓捕罪犯,實際上也會幫助無辜的人,讓他們免於不必要的調查。”論文寫道,在某些情況下,藉由新研究建立起來的聯繫,可將嫌疑人範圍從1000人縮小到40人,這將大大提高調查效率。
他們也承認,與同指指紋匹配相比,異指匹配相當困難,新系統準確度仍明顯偏低,並不適合在法庭或鑑權場合用作決定性證據。實驗還顯示,系統存在一定的人羣偏倚,某些特定人羣會比其他人更易蒙受不白之冤。
雖然準確度不足,但編輯認為,新研究有助於在模稜兩可的情況下確定線索的優先順序。幾經波折,這篇論文最終被Science Advances接受發表。
4
質疑
對一篇論文而言,發表不是故事的終點。新研究面世後,遭到了多位業內專家批評。
瑞士洛桑大學法醫學教授Christophe Champod表示,使用深度學習技術研究指紋很有趣,但他不認為這項工作有什麼新發現。他批評道,“他們的論點是,不同手指間的指紋具有一定相關性,這早在指紋識別研究的起步階段就已為人所知,當時是人工完成的,多年來一直有據可查。”
Champod所言非虛。在上世紀二、三十年代,就有學者觀察到不同手指間的指紋具有相似性。八十年代,有研究對這種相似性進行了因子分析,從中提取出2個獨立因子。2005年,學者A.S.Nagy將各手指間指紋的相似性命名為“花紋間影響”(pattern influence),即中間三枚手指(左右手食指、中指和無名指)之間的指紋花紋高度相關。
“在我看來,由於缺乏相關知識,他們的論文有些過於誇張了。我很高興他們重新發現了一些已知的東西,但從本質上講,這是大驚小怪。”
對此Gabe Guo回應,他們使用人工智能系統性地量化了不同手指間指紋的相似程度,此類工作前所未有。“我們首次明確指出了這種相似性來自指紋中心的嵴紋走向。此外,我們也是首次嘗試匹配同一人不同手指上的指紋,至少是用自動化系統。”
密歇根州立大學的計算機科學家Anil Jain則認為,同一個人不同手指的指紋具有很強的相似性,這並不是什麼新發現。因為一個人的指紋和遺傳因素相關,所以和其他人的指紋相比,自體指紋相似的可能性自然會更高。
加州大學爾灣分校的犯罪學教授Simon Cole也認為新研究言過其實。“在指紋方面我們並未‘出錯’。沒有兩枚指紋‘完全相同’——這個説法未經證實,但在直觀上是正確的。發現指紋相似並不能推翻這種説法,眾所周知,不管是否來自同一個人,指紋之間總是相似的。”
對於Lipson提到的,研究用於比對來自犯罪現場和警方記錄的異指指紋,Simon Cole表示,這種情況很難發生,因為在採集指紋時,通常會記錄所有10根手指的指紋(往往還包括掌紋)。“我不清楚他們認為執法部門在何種情況下會只記錄部分指紋,而不是全部。”
以上種種質疑,指向了同一個問題:指紋是否獨一無二?要回答這個問題,得從指紋的形成過程説起。
5
圖靈斑圖
指紋形成背後的數學機制要追溯到一個熟悉的名字——艾倫·圖靈(Alan Turing)。他在1952年發表著名論文《形態形成的化學基礎》(The chemical basis of morphogenesis),用反應擴散模型成功説明了某些生物體表面複雜斑紋的由來。圖靈從數學角度表明,在反應擴散系統中,穩定態會在某些條件下產生空間均勻態失穩(圖靈失穩),導致空間平移對稱破缺,並自發產生空間定態圖紋(圖靈斑圖)。
不光人類,靈長類動物、甚至考拉都長有指紋。| 來源:Macie Hennenberg, et al. and naturalSCIENCE
以上概念比較拗口,這並不奇怪——畢竟,生物生長發育是個複雜的過程,其中可能有數百種化學物質參與反應。不過,高度簡化且抽象的模型仍然對科學直覺大有裨益。圖靈先知先覺地寫道:“這個模型將是簡化和理想化的,因此也將是失真的。對當前知識水平下那些最為重要的特徵,我希望能將其保留,並加以討論。”
追隨圖靈的腳步,我們來考察最簡單的一維繫統。不妨假設系統中含有激活劑和抑制劑兩種成分,它們之間存在相互作用:激活劑既能促進自身增長,也能促進抑制劑增長;反過來,抑制劑則會抑制激活劑增長。
從均勻初始條件開始,微小漲落導致激活劑和抑制劑的水平出現隨機波動,那麼總會在某處,激活劑的水平略高於常態(綠色曲線上升)。由於激活劑能促進自身增長,其在該處的水平將進一步上升(正反饋效應)。
隨着激活劑水平升高,它也會促進抑制劑增長。(紅色曲線上升)
然而,兩種成分的擴散係數不同,抑制劑的擴散速度快於激活劑。這導致兩個後果:其一,抑制劑快速擴散,向峯兩側湧入,抑制那裏的激活劑水平,形成側抑制區域,這裏不會再出現新的峯;其二,峯區域的抑制劑由於擴散而水平下降,這樣原來的激活劑濃度峯值就能穩定存在。
在遠離峯的地方,抑制劑濃度不足,抑制效應減弱,又會形成新的峯。
峯與峯之間的距離由全局參數(例如抑制劑的擴散係數)決定。整個過程無需外部控制,系統中的各組分彼此之間相互作用,通過局部行為和反饋機制,逐步形成全局有序結構,組成了一個自組織系統。
以上過程的關鍵在於,系統中的兩種反應物質,不僅能相互作用,還能獨立擴散。事實上,圖靈斑圖對應的是非線性反應動力學過程與特殊擴散過程的耦合。這個擴散過程由於兩種因子的擴散速度不同會發生失穩,這就是圖靈斑圖產生的機理。在數學上,圖靈斑圖可以用無量綱化的反應擴散方程組描述
其中u和ν代表兩種反應物質的濃度,c和d是擴散係數,t是時間,f(u, v)和g(u, v)代表反應項。線性穩定性分析可知,圖靈斑圖的波長λ=(2πPD)^(1/2),其中P為體系在Hopf分岔上的振盪週期,由體系的化學反應機制決定,D是反應物的平均擴散係數。由此可見,圖靈斑圖的波長取決於系統的內稟性質。
6
萬物皆數
將以上討論推廣至二維情形,我們能看到許多似曾相識的紋理:
事實上,從斑馬紋到西瓜紋,再到風在沙丘上吹出的皺褶,自然界有數不清的圖案都被認為出自圖靈機制。在2021年發表於Nature Physics的一項研究中,研究人員甚至發現在金屬襯底上生長鉍晶體,也會出現醒目的圖靈條紋:
來源:Alan Fang and Aharon Kapitulnik
在晶體生長過程中,鉍原子在垂直方向(即遠離平面方向)的位移充當了激活劑,在平面方向的位移充當了抑制劑。起作用的是原子位移,而不是化學分子。
此外,藝術家還利用圖靈斑圖來創作生成藝術(generative art):
generative art