陳根:50個網站展示用户互聯網指紋,隱私何去何從?_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2020-09-20 08:38
文/陳根
互聯網時代下,通過網站蒐集信息和資源是一件極為普遍的事情,通常,網頁瀏覽器會記錄用户訪問過的網站列表,即網頁瀏覽歷史記錄。
**然而,即便是這樣簡單的網絡行為,都存在着隱秘的風險。**在8月舉行的 USENIX 會議上,Mozilla 的研究人員展示了他們對 5.2 萬名(事先同意)的Firefox 用户在兩週內的瀏覽歷史數據集進行了分析的結果。
結果顯示,48,919 份瀏覽資料具有可區分性,即 99% 的瀏覽歷史是獨一無二的。超過八成用户可通過瀏覽歷史被識別身份。而且,只需要考慮 50 個最常用網站就足****夠。
事實上,在 2012 年就有對用户瀏覽記錄分析用户身份的研究。其中,研究者首先建立了一個測試網站,並使用 CSS 代碼從 6000 個域名列表中識別出參與者訪問過的網站。當時的研究結果顯示,基於這 6000 個域名,參與的受試者,97%都形成了非常具有獨特性的瀏覽歷史,僅此數據就可以用來追蹤確認這些參與者。
而時下, Mozilla 這一次研究所採用的數據則更精確,Mozilla的研究收集了 5.2 萬名參與者的全部瀏覽記錄,數據包括對 66 萬個獨特域名的 3500 萬次網站訪問,也是該領域規模最大的一次研究。
參與者首先和 Mozilla 團隊分享他們的瀏覽歷史,然後,Mozilla 團隊開始試驗他們是否能從大量數據中重新識別出這些用户。結果顯示**,99%的瀏覽記錄被發現具有獨特性,能與用户****“對號入座”**。
此外,2012年和2020年的兩次研究對比也展示了互聯網時代的變化:八年前,對於用户訪問量最大的前50個網站,識別用户的準確率為38%,對於500個網站的數據集,準確率為70%;今天,以50個網站為基礎的重新識別準確率為50%,以150個網站為基礎的重新識別準確率為90%。
伴隨着5G技術的發展,人們創造的信息總量也以幾何級數進行累積,研究顯示,過去幾年中人類製造的數據佔整個人類歷史數據量的95%,換言之,大數據時代已經真正降臨。
在互聯網時代的後半場,我們的生理信息都將進入傳播渠道,成為5G技術下的重要信息資源。而通過用户瀏覽記錄分析用户身份無疑會成為進入傳播渠道的另一重要數據,如何規避這一數據信息下的隱私暴露風險,創造更好地保護隱私的路徑,依然有待實踐探索。但任何技術的狂想始終來自人和人性,人類的智慧是技術的智慧,也是破解技術困境的智慧。