兩個男人,11.8億_風聞
已注销用户-中国政经第一刊2021-06-20 13:39

作者 | 向由
日前,一份網上公開的判決書,披露了一件令人驚訝的數據盜竊案件。
案件中的受害者的是一款國民度極高的網購軟件,淘寶。據判決書顯示,該軟件被人繞過了“風控機制”,從而被盜走了海量數據,數據條目達到11.8億之多。
我們網購時使用的賬號和行為,包含着許多個人隱私,比如id、暱稱、手機號碼等等。根據現行的法律和法規定義,它們屬於隱私。
然而很難想到,在某些互聯網巨頭的產品上,這些本應該保護的隱私數據,卻沒有經過“脱敏”,直接曝光在網絡世界。
不僅如此,根據判決書的內容顯示,盜取數據的團隊僅有一名技術人員,且盜取時用到的工具,也只是他個人編寫的一款爬蟲軟件。

判決書內容顯示,盜取數據的團隊僅有一名技術人員
這就是説,我們的敏感數據不僅被暴露在外,而且相關保護措施也是“薄如蟬翼”。
1
又見爬蟲
上網的這份判決書是《逯某、黎某侵犯公民個人信息一審刑事判決書》,落款時間為2021年5月6日,屬於新近的判例。
案中有2名被告人,逯某和黎某。負責盜取數據的,是技術人員逯某。
判決書顯示,經司法鑑定,被告人逯某通過其開發的軟件爬取網購軟件用户的數字ID、暱稱、手機號碼等信息,共計1180738048條。
而後,逯某將其爬取信息中軟件用户的手機號碼,通過微信文件的形式,發送給被告人黎某使用,共計有19712611條。

判決書顯示,經司法鑑定,被爬取的信息共計1180738048條
逯某作案的手法並不新鮮,仍是老一套爬蟲。
據判決書,逯某供述説,從2019年11月起,他開始用自制的軟件“淘評評”,通過平台的商品詳細信息接口和信息分享接口,他可以爬取到這個平台的用户數字id和用户暱稱。
接着,再通過平台分享的接口,逯某進一步爬取到用户的電話號碼。
在平台公司這邊,逯某的行為也是通過接口暴露的。
據判決書,平台的安全風控人員作證説,在2020年7月13日,他發現平台的評價接口存在異常流量行為。排查過後發現,“有黑產通過破解接口的形式進行加密數據的爬取,在2020年7月13日至2020年7月20日之間爬取了3500萬條數據。”
不久後,在2020年8月,逯某和黎某先後被採取了強制措施。
值得注意的是,根據逯某的供述,他爬取數據的行為早在2019年11月開始,作案過程持續了8個月時間。
法院還對數據的真實性進行了證明。據判決書,相關人員在數據庫中抽樣10000條進行排查,“主要字段包含user_id、user_nick、手機號、註冊時間等,屬於平台實際認證的真實信息”。
2
防護“失效”
如此海量的數據,是如何被盜走的、又是否進行了安全性補救?截至目前,涉案平台公司沒有作出回應,具體過程無法詳解。
不過,根據判決書中披露的細節,仍可以管中窺豹。
據判決書,受案登記表、立案決定證實,平台公司在2020年8月14日報警時稱,有黑產通過mtop訂單評價接口繞過平台風控、批量爬取加密數據,爬取字段量巨大。

平台回應稱,被告人未經授權爬取購物車、收藏夾並惡性宣傳推廣的行為,嚴重違反了平台的應用開發者規範
“Mtop是該平台公司的無線開發平台”,數據安全公司全知科技的創始人兼CEO方興介紹,對於網購平台來説,訂單當然可以有商家評論,這是信譽的一部分,所以是對外公開的。
但通常來説,“從安全的角度出發,一般對外露出的信息會做‘脱敏’處理和防爬流控”,方興介紹道。
比如説,一個賬號的用户名是“123456”,在對外公開的接口上,脱敏後的用户名是“1xxxx6”,就是為了避免有效信息被有心人採集。
接着是“防爬流控”,可以通俗地理解為“反爬蟲機制”。爬蟲,是指網絡上由人編寫、完成特定目標的一類自動化程序。它代替了具體的操作人,去做重複性質的枯燥工作,在數據收集和檢索領域必不可少。
爬蟲非常好用,於是有人拿它起了壞心思,關於數據泄露的事件,超過一半有它的身影。但平台並不是只能坐以待斃,它可以設計更合理的規則,防止爬蟲進入系統盜走信息。
在這方面,最典型的例子是購票軟件12306。在面世之初,12306的使用體驗十分糟糕,其中很大一部分原因是,許多第三方購票軟件用“機器購票”去搶去先機,它們的原理就是爬蟲。
經過近10年的升級,現在的12306越來越熟練地辨別“人的行為”和“爬蟲行為”,將爬蟲軟件識別以後,就將之拒之門外。從此,第三方購票軟件的優勢全無。
此次涉案的平台公司是互聯網巨頭,但“反爬措施”為何不見?為何失效?
3
業界隱憂
更何況,此案中的作案人員並非“大牛”。
2020年7月6日到7月13日之間,逯某盜取數據的方式非常激進,“平均每天爬取數量500萬,爬取內容包括買家用户暱稱,用户評價內容,暱稱等敏感字段”。
因此,他被平台公司發現、並報案處理。
爬蟲盜取隱私數據,顯然是違法行為。真正的博弈之處是,爬蟲的製作者,要想盡辦法地偽裝,將爬蟲程序模擬為人類行為。

電影《黑客帝國》劇照
同樣地,“魔高一尺,道高一丈”,平台公司要識破對面造出的層層迷霧。
然而出於不可知原因,逯某的爬蟲每天盜取500萬條數據,已經顯然不是人類可為,這讓他徹底暴露了自己。從中至少可以説明,他並沒有太高的技術能力和安全意識。
很遺憾,這卻沒有妨礙他作案長達8個月、盜走11.8億條數據的事實。
該事件暴露出,當下互聯網企業普遍的安全意識不足。就以此案為例,被利用的是平台的“mtop訂單評價接口”,於此類似的功能性接口,正在成為互聯網上的數據安全的一大隱憂。
和以往不同,在當下大數據時代,人們已經意識到數據的價值,而這個價值要通過流動來實現。數據在不同端的流動,催生更多的場景、更多的業務,以此實現更多的利潤。
然而,盲目流動的數據,更可能是在裸奔。

2020年數據資產泄露行業分佈圖(圖源:永安在線數據資產泄露風險監測平台)
原因的關鍵就在“接口”。方興表示,現實生活中,真實的數據泄露事件更多的是發生在業務層中,攻擊者通常不需要高深的黑客技術,而是潛伏在業務系統的上下游上等待數據的流動,然後利用一些細微的安全缺陷將這些數據批量竊取。
相比傳統的黑客攻擊,於此業務層的風險發生時,企業卻是更難感受到的。
然而現在,數據流動的業務方興未艾,將來勢必有更多的數據、更多的“接口”。互聯網大廠們,真的準備好了嗎?