APUS研究院 | 1.3億條開房記錄的泄露原本可以這樣避免_風聞

APUS-麒麟合盛（APUS），中国互联网出海领航者2018-09-03 11:35

2018-09-03

距離歐洲GDPR的實施已經過去三個多月，在中文互聯網的世界裏，這個法規的熱度一直在下降，畢竟歐洲距離我們太遙遠，需要真正去應對GDPR的中國企業也太少，所以熱度的下降無可厚非。更何況，目前介紹歐盟《通用數據保護條例》（GDPR）的文章和評論早已汗牛充棟，很少有人能再講出新意。

但是，GDPR對中國企業來説，真的只是停留在法規中的概念嗎？事實上GDPR一定程度上重構了數據世界的隱私安全與保護的理念，這不僅侷限於歐洲，而更多有向世界上更大範圍擴展的趨勢。更重要的是，GDPR中的概念和理念並不是紙上談兵，而是真真切切能夠幫助我們正確處理隱私安全與保護問題。

就在上一週的8月28日，國內知名連鎖酒店集團——華住集團被爆出數據泄露事件：根據媒體報道，涉及的數據包括身份證、手機號碼、郵箱、登陸密碼等官網註冊資料，共 53G，約 1.23 億條記錄；還有包括身份證號、家庭住址、姓名等入住登記身份信息，共 22.3G，約 1.3 億條記錄；此外還包括姓名、手機號、郵箱、房間號、消費金額等信息在內的酒店開房記錄，共 66.2G，約2.4 億條記錄。在看到這個消息的時候，作為隱私安全和保護的從業人員，筆者無疑是震驚的，不僅震驚於泄露數量之巨，更震驚於這些重要數據竟然沒有得到妥善的保護。

熟悉GDPR的讀者應該都知道，GDPR裏明確界定了什麼是“personal data”，而本次華住所泄露的數據毫無疑問都屬於personal data的範圍。對於個人數據，GDPR實際上主張的是“風險為路徑”的保護理念，也就是説根據個人數據的不同風險值採取不同的保護程度與方式。GDPR裏總的來説把個人數據劃分為四個層次：

1. 已識別的數據，即能識別出具體自然人的數據，如華住事件中所泄露的姓名、身份證號、手機號等；

2. 可識別的數據，即通過一定的假名化處理，但保留了源數據且數據能夠可逆的數據；

3. 去標識化的數據，即已經“無法識別出特定個人”，比如上文的消費金額、消費日期等數據單獨來看實際是無法識別出特定個人的；

4. 匿名化數據，指已經無法完全與單一自然人關聯的數據，如已經抽象化的用户畫像。

其中去標識化，也就是GDPR中提出的“Pseudonymization”，是一個非常有新意的概念，它指的是“…the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person”，簡單説就是這些數據與個人的身份完全脱鈎，單獨來看已經無法識別出特定個人。

回到華住的事件上來，GDPR的這套“風險為路徑”的理念如何能夠更好的幫助我們做好數據安全與保護呢？我們自己也進行了覆盤，雖然泄露風險不可能百分之百避免，但做到以下幾點，至少能夠把泄露後的損失降低到最小：

1. 對數據進行分類建庫管理，可以借鑑GDPR的理念和企業的商業需要，將數據進行風險分級，對於不同風險級別的數據單獨建立數據庫同時採取不同的權限控制系統。

以華住事件為例，姓名、電話號碼、身份證號、家庭住址、郵箱號等個人隱私數據應該是最高權限的數據庫並單獨保管，一定權限以下的員工不應該能夠直接獲取。

2. 對必須識別的個人數據作最大程度的非關聯和假名化。

我國法律法規對酒店服務的實名制度有強制要求，酒店確實必須保留客户的個人隱私數據和所有入住記錄，但在數據分級管理的基礎上，對於必須連接的數據庫之間應該採取必要的假名和加密處理，如客户的個人隱私數據與客户的入住數據就應當是兩個獨立的數據庫，同時二者之間的連接信息（如姓名、身份證號、手機號）應當遵循“最小必要”原則，不是必要的連接信息就應當不使用（如能用身份證號就沒必要使用姓名和手機號），在此基礎上連接信息應當進行加密處理，或者如果沒有法律法規的強制要求，則應當為用户建立加密的虛擬ID，使用加密虛擬ID作為連接信息，使得任何單一數據庫的泄露都無法獲取完整信息，即便數據庫整體泄露也無法直接建立關聯而必須進行解密。

3. 對企業內部大數據和商業分析的數據採取去標識化。

其實，企業採集的一部分數據本身並不是為客户直接服務的目的和法律法規的要求，而是為了進行大數據和商業分析，那麼對於這部分數據就應當堅決與用户識別數據脱鈎，如房間等級、消費金額、消費內容等，這些信息應當在完成用户畫像的基礎上徹底與個人識別數據脱鈎，既減少了企業的合規與保護成本，同時也能夠最大程度地減少用户的數據泄露風險。

從華住事件來看，中國企業在隱私數據安全和保護上所作的工作仍然遠遠不夠，GDPR對於我們來説並不是“屠龍術”，而是切切實實能夠幫助提升安全保護能力的指導理念與工具，值得所有中國企業和從業人員在理論和實務中去深入學習與實踐。

APUS研究院

APUS旗下專注於全球互聯網發展研究的智庫平台，是面向未來移動互聯網創新變革的孵化器及加速器。