陳根:從數據融合到隱私保護,雙重需求驅動隱私計算_風聞
陈根-知名科技作家为你解读科技与生活的方方面面。2021-04-21 09:55
文/陳根
當前,與傳統的資本、土地、勞動、技術等一樣,數據已成為重要生產要素之一。其與算力、算法組合,作為一種新型社會生產力,在人們的生產生活中發揮顯著作用。越來越多的業務場景需要多方數據的流通和共享。
然而,即便社會各界高度認同數據生產要素的重要意義,但合理挖掘、釋放和使用數據要素所藴含的巨大價值,依然需要克服橫亙在人們面前的,亟待解決的客觀難題。
一方面,在現實世界中,受制於數據的分散性、低複製成本以及價值聚合性,數據仍呈高度分散的狀況,“數據孤島”十分明顯;另一方面,藴藏着巨大價值的數據能夠以極低的成本複製和無限使用,這種“野蠻掘金”的誘惑導致了各種各樣數據泄露、盜用、濫用等問題案件的發生。
為克服這兩大難題,隱私計算應運而生。
雙重需求驅動隱私計算
隱私計算,廣義上是指面向隱私保護的計算系統與技術,涵蓋數據的產生、存儲、計算、應用、銷燬等信息流程全過程,以期達成使數據在各個環節中“可用不可見”的效果。正如上述,隱私計算的興起和發展源於數據融合和隱私保護的雙重需求驅動。
**從數據融合來看,**當前,數據流通不暢已成為制約我國大數據產業發展的重要問題。數據擁有者出於數據安全保密的顧慮而不願共享數據,使得不同企業、不同機構間難以利用對方的數據進行聯合分析或建模。
究其原因,數據具有分散性、低複製成本以及價值聚合性,分散性是數據持續不斷地從各個途徑產生,來源分散,缺乏數據授權、獲取、存儲、傳輸、驗證及共享等交互標準;分散性疊加數據極低的複製成本,使得很多情況下,各個數據所有方不願意、不能夠共享數據。
因為一旦分享**,****就失去了對數據的控制權,加上數據互聯互通的成本較高,****這就形成了“數據孤島”**。即使數據能聯通,它們的可信程度也存有疑問。同時,數據又具有價值聚合性,即單一數據源的價值有限,多維數據、海量數據的聯合應用的價值更高。
於是,數據的分散性、低複製成本以及價值聚合性,不斷構成矛盾——數據需要聚合才能有價值,但數據卻分散成一個個“孤島”。
基於此,隱私計算作為一種由兩個或多個參與方聯合計算的技術和系統,參與方可以在不泄露各自數據的前提下通過協作對他們的數據進行聯合機器學習和聯合分析。隱私計算的參與方既可以是同一機構的不同部門,也可以是不同的機構。在隱私計算框架下,參與方的數據不出本地,在保護數據安全的同時實現多源數據跨域合作,可以破解數據保護與融合應用難題。
對於隱私保護來説,數字經濟時代下,數據作為生產要素的重要性日益凸顯,加之數據的頻繁泄露,數據隱私安全成了時下亟待解決之痛。當前,從信息處理過程中的隱私保護方法來看,隱私保護主要分為訪問控制技術方法、信息混淆技術方法、密碼學技術方法等三類。
但無論是訪問控制技術方法、信息混淆技術方法、密碼學技術方法的隱私保護方案都主要是針對特定場景局部數據集的具體算法,缺少針對特定場景動態數據集的算法框架,更缺少適應多場景動態數據集的普適性算法框架。
此外,針對多媒體數據需要多個隱私保護算法的組合,而目前也缺少成熟的方案。將不同隱私保護算法互相疊加以獲得更好保護效果的方法則仍待開展研究。簡單來説,現有的隱私保護以及隱私度量方案零散孤立,還缺乏隱私信息操作審計和約束條件的形式化描述方法。
尚未有將隱私保護與隱私侵犯取證追蹤一體化考慮的方案,無法構建涵蓋信息採集、存儲、處理、發佈(含交換)、銷燬等全生命週期各個環節的隱私保護和隱私侵犯取證追蹤的技術體系。而隱私計算則突破了現有隱私保護的侷限,在處理和分析計算數據的過程中能保持數據不透明、不泄露、無法被計算方以及其他非授權方獲取。
不論是數據融合還是隱私保護,不論是打通融合多方數據,創造整合多維數據、釋放更大數據價值,並保證數據的可靠性,隱私計算都正在成為一個答案。
隱私計算或成關鍵技術
隱私計算是面向隱私信息全生命週期保護的計算理論和方法。
具體來説,作為面向隱私信息全生命週期保護的計算理論和方法,隱私計算是在處理視頻、音頻、圖像、圖形、文字、數值、泛在網絡行為信息流等信息時,對所涉及的隱私信息進行描述、度量、評價和融合等操作,形成一套符號化、公式化且具有量化評價標準的隱私計算理論、算法及應用技術,支持多系統融合的隱私信息保護。
隱私計算涵蓋了信息所有者、蒐集者、發佈者和使用者在信息採集、存儲、處理、發佈**(含交換)、銷燬等全生命週期過程的所有計算操作,**是隱私信息的所有權、管理權和使用權分離時隱私描述、度量、保護、效果評估、延伸控制、隱私泄漏收益損失比、隱私分析複雜性等方面的可計算模型與公理化系統。
2019年,《UN Handbook on Privacy-Preserving Computation Techniques》中提到,隱私保護計算是在提供隱私保護的前提下,實現數據價值挖掘的技術體系。**也就是説,****隱私保護計算並不是一種單一的技術,它是一套包含人工智能、密碼學、數據科學等眾多領域交叉融合的跨學科技術體系,**並在實踐過程中,實現數據的“可用不可見”。
從技術理論來看,隱私數據主要分為密碼學和可信硬件兩大領域。密碼學的技術目前以****多方安全計算(MPC)為代表。多方安全計算技術核心思想是設計特殊的加密算法和協議,從而支持在加密數據之上直接進行計算。目前MPC通過秘密分割、不經意傳輸、混淆電路或同態加密等專門技術實現,通用性相對較低、性能處於中等水平,但近年來性能提升迅速、應用價值極高。
可信硬件技術目前主要指可信執行環境(TEE),其核心思想是構建一個硬件安全區域,數據僅在該安全區域內進行計算。可信執行環境(TEE)通過硬件技術來對數據進行隔離保護,將數據分類處理。支持TEE的CPU中,會有一個特定的區域,該區域的作用是給數據和代碼的執行提供一個更安全的空間,並保證它們的機密性和完整性。
TEE將信任機制交給硬件方(Intel的SGX、ARM的TrustZone、AMD的SEV等產品),嚴格來講並不屬於“數據可用不可見”,但其通用性高、開發難度低,使得在數據保護要求不是特別嚴苛的場景下存在價值發揮的可能。
此外,國內外還衍生出了聯邦學習、共享學習、知識聯邦、聯邦智能等一系列“聯邦學習類”技術。這類技術以實現機器學習、數據建模、數據預測分析等具體場景為目標,通過對上述技術加以改進融合,並在算法層面進行調整優化而實現。
其聯邦學習作為近些年新崛起的新興人工智能技術,在2016年由谷歌最先提出。其設計目標是在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多個參與方或多個計算節點之間開展高效率的機器學習。
隱私計算不泄露原始數據,可以在保護數據安全的前提下實現數據多元跨域融合,有助於破解數據保護與利用之間的矛盾。Gartner在2019年技術成熟度曲線報告中首次將隱私計算(其稱為機密計算)列為處於啓動期的關鍵技術。世界經濟論壇也在2019年9月發佈的白皮書中認為,隱私計算技術將成為釋放金融服務行業新價值的關鍵技術。
建久安之勢,成長治之業
近兩年來,伴隨着技術的不斷成熟,國內外隱私計算產業化應用的步伐明顯加快。
**國外隱私計算技術產品創新活躍,但仍處於發展初期。**從整體發展情況來看,國外的隱私計算產品形態仍處於較為初步的階段,未形成產業生態圈,也尚未形成壟斷格局。
2019年以來,國外科技巨頭快速佈局隱私計算產業。2019年4月微軟新發布的兩項專利申請表明,其正考慮在擬推出的區塊鏈產品中使用TEE。2019年8月,谷歌發佈消息稱,將推出新型MPC開源庫,以隱私安全的方式進行數據協作。麻省理工學院背景的初創公司 Enigma也推出了基於MPC的新加密系統。
**在國內,**從2018年開始,無論是BAT等大廠,還是成熟的大數據公司,或是初創型科技企業,也已接連入局隱私計算。螞蟻金服、騰訊雲、百度在2019年紛紛推出了各自的MPC產品。阿里巴巴、微眾銀行、京東等企業也在各自的技術領域形成一定優勢。
目前,各互聯網巨頭企業均在隱私計算領域加快佈局,形成跨業務、多團隊、強支撐的發展態勢。此外,華控清交、富數科技、矩陣元、數牘科技、鍩崴科技、光之樹科技、零知識科技等一批專注於隱私計算產品化的初創企業也不斷湧現。諸多區塊鏈企業、數據安全企業、金融風控企業、電信企業等也紛紛擁抱隱私計算技術。
資本市場也動作頻頻,成立不到兩年的華控清交已完成多輪融資,投資方包括清華大學、中國互聯網金融協會、北京市海淀區創業扶持基金、香港交易及結算所有限公司(港交所)、聯想集團和高榕資本等。**可以説,**在大數據產業快速發展的牽引下,我國隱私計算技術產品正在逐步成熟、應用場景快速擴充。
儘管隱私計算被市場廣泛看好,但從技術研究、產品開發、實際應用落地到最後商業化,隱私計算產業在走向成長的過程中依然面臨着一系列問題和影響因素,進而制約了大範圍推廣和商業化進程。
**首先,技術和解決方案還不夠完全成熟,與客户的需求有一定差距。隱私計算的技術效率還有待進一****步提升。**比如,MPC和聯邦學習技術都受制於網絡傳輸的帶寬、通信速率和網絡穩定性,計算和建模效率尚不夠令人滿意;同態加密的計算有嚴重的性能瓶頸。
由於計算效率和安全性等問題,現有系統產品還比較複雜,工程化程度還不夠完善,會產生一定維護成本,但客户對複雜系統的維護費用支付意願較弱,可是單純售賣系統的毛利較低甚至不足以覆蓋成本。
**其次,**技術的安全可靠性有待提高,且目前缺乏可靠的技術標準認定,導致客户對採納技術有疑慮。也就是説,隱私計算的技術效果和安全性仍然不夠讓人信服。TEE技術因為中心化可信程度和硬件的安全性、依賴性、內存容量等問題而飽受質疑;聯邦學習需要模型梯度傳遞,但梯度也有可能泄露一些信息;差分隱私的計算結果準確度有較大不確定性。
在這種情況下,國家缺乏明確的監管文件和技術標準認可隱私計算的安全可靠性。所以,很多客户都對如何證明技術的安全合理性有疑慮,只能在小范國內測試和監管沙箱內應用。
**其三,****現有法律法規未對隱私計算地位進行明確定位。**例如,《中華人民共和國網絡安全法》中規定“未經被收集者同意,網絡運營者不得向他人提供個人信息”,同時設置了“經過處理無法識別特定個人且不能復原”的例外條款。將個人信息用於隱私計算是否屬於這一例外條款,法律法規及相關標準等並無明確界定。
然而,由於隱私計算僅僅避免了原始數據轉移的過程,但仍然完成了基於多方數據的計算,使得其在某種程度上依然破壞了消費者的隱私。這正在成為制約隱私計算發展的無法迴避的問題。
**最後,**市場對於隱私計算的認知度、認可度仍然不足。市場需求尚未充分展現,還缺乏明確的拉動性政策和標杆性示範項目。此外,很多行業的數字化程度低,數據管理方式較為粗放,尚未建立成熟的數據管理體系,制約了數據價值挖掘的需求。
隱私計算是服務於數據的技術,為滿足數據分享流通的需求而生也為解決該需求與隱私保護等監管規制的矛盾而生。但在前幾年,技術的擴散主要依靠廠商自行推動,宏觀環境上缺乏打開市場需求的助力。
在數字時代,數據的重要性不言而喻。隨着各行各業的數字化深入,數據的融合應用也成為一個重要趨勢。在這個過程中,如何打破數據孤島的壁壘,實現數據共享,也是整個行業亟待解決的難題。隱私計算應運而生,或將成為釋放數據價值的一個答案。因此,只有建久安之勢,才能成長治之業。