用密碼學技術解決數據濫用問題,這家公司想建起國家級數據電網_風聞
大数据文摘-大数据文摘官方账号-2020-07-01 13:44
大數據文摘出品
作者:魏子敏
2018年3月19日,星期一,Facebook股價暴跌7%,一天內市值蒸發近400億美元。
這是Facebook舉世矚目的“劍橋分析數據泄露醜聞”發酵的開始。就在此前兩天,特朗普聘用的一家政治AI公司劍橋分析(Cambridge Analytica)被曝非法將大約5千萬Facebook用户信息用於大數據分析,從而精準刻畫這些Facebook用户的心理特徵,並向他們推送定製廣告,甚至假新聞。
這些用户信息由劍橋大學心理學系講師Aleksandr Kogan通過App “thisisyourdigitallife”以學術研究為目的向Facebook收集,但數據卻被轉移至第三方,即劍橋分析公司。
醜聞直接導致Facebook成為了“數據泄露”的代名詞,也讓所有人都意識到了明文數據的顯著特徵:數據一旦被“看見”即可被複制,複製成本極低,並且無法限制用途和用量。
所有數據擁有方都擔心成為另一個Facebook。要想讓數據安全地流通起來,兩個重要的問題迫在眉睫:如何防止數據在使用過程中的信息泄露;如何限制數據的具體使用方式,防止數據被濫用?
數據正成為數字經濟時代的核心生產要素
要完全防止數據被泄露和濫用,最穩妥的解決方式當然是把數據鎖在自己“家”裏。沒有流通,也就不存在濫用。
但是,在當前的數字經濟時代,這顯然是個不可能被接受的答案。數據正成為最重要的生產要素,並且在經濟生活中發揮着愈加重要的作用。
2004年,全球數據總量是30EB,2005年達到了50EB,到2015年,居然達到了驚人的7900EB,2020年預計達到35000EB。這個規律被稱為新摩爾定律,即:人類有史以來的數據總量,每過18個月就會翻一番。或者説,我們整個人類文明所產生的全部數據中有90%是過去兩年出現的。

從金融、廣告、支付到能源、工業和醫療,數據正在滲透到人類生活的方方面面。毋庸置疑,數據是數字經濟時代的核心生產要素,也是現代社會和經濟的核心資產。
“互聯網經濟時代,數據是新的生產要素。”
2017年,習近平正式提出,將數據作為新時代的生產要素。十九屆四中全會正式把數據定為了和土地等其他資產一樣的生產要素,也和其他生產要素一樣,依據“由市場評價貢獻、按貢獻決定報酬“的機制進行定價。生產要素的價格是它參加社會化大生產的分配依據。
一般來説,經典經濟學理論認為價格的確定是基於市場供需,沒有經過流通交易,只靠算法算出來的數據價格,是沒有經過市場檢驗和認可的。
但是,要真正由市場供需來給數據定價,可沒有那麼容易。
數據成為關鍵生產要素的兩個必要前提條件:「可用不可見」和「規定用途和用量」
數據作為生產要素有着自己的顯著特點。
首先,相對於原始數據的生產成本,數據的複製成本極低,甚至可以被忽略;
其次,數據可以被無限地重複使用,物理上不會因為被使用而耗損或滅失;同時,數據可以被多方同時使用;
最後,使用數據的過程中還通常會產生新的數據,因此數據是取之不盡用之不竭的,只會越用越多。
這也決定了明文數據作為生產要素的侷限性:一旦被看見,就會泄露具體信息,即可被複制,複製成本極低且可以被無限地複製;一旦被泄露和複製,就無法限制其用途和用量,很難釐清“責、權、利”。
這也是為什麼目前很多珍貴且待開發的數據,比如醫療數據、金融數據、政務數據等一直無法被分享共享開發,主要考慮也都是擔心數據信息泄露,尤其是因為無法控制數據的具體用途,而擔心數據被濫用。
以上特點使得明文數據很難通過市場供需進行定價,並形成大規模的市場交易流通,也就很難成為生產要素的主體。
一方面數據必須成為生產要素,另一方面,明文數據的流通存在很多障礙。數據要真正實現生產要素化並大規模參與社會和經濟活動,必須先滿足“可用不可見“和”規定用途用量“這兩大必要前提條件。
這兩個前提的必要性是由數據的“二象性”決定的:數據既包含“可見”的具體信息,也包含“不可見”的計算價值。
具體來説,數據的一大價值在於其可以展示,或者説可以被看見的具體信息,類似量子力學中的“粒子”;另一大價值在於數據不通過展示而可用於計算的計算價值,我們可以把它類比為量子力學中的“波”。
**首先,實現數據的“可用不可見”:**數據大規模流通的前提是把數據承載的具體信息和它的計算價值區分開,做到數據“可用不可見”,避免因為“被看見”而造成的無限供應和無限使用;
**其次,規定數據用途用量:**規定數據計算價值的具體用途和用量,只有這樣才能形成對數據特定使用權的定性定量以及有限供應和需求,並釐清數據使用的“責、權、利”。
當這兩個前提同時被滿足的時候,原始的數據還是在數據原持有人手中,只是把數據計算價值的規定使用方法(算法)和使用次數授權給了使用方。這時候,真正流通的不是數據本身,而是數據的特定使用權。只有通過這種方式,才能讓數據真正成為生產要素,在市場上進行大規模流通和交易。
滿足這兩個前提聽起來都非常困難,如何解決它們,咱們一個一個來。
40年前的密碼學難題,讓數據“可用不可見”
事實上,早在約四十年前,第一道難題“可用不可見”就從理論上被解決了。解決它的人是一位密碼學專家,也是迄今為止唯一的圖靈獎華人得主姚期智。
理解這個解答之前,讓我們先試着思考這樣一個問題。
兩個百萬富翁在街頭相遇,他們都想知道誰更富有,但是出於隱私保護,又不想讓對方知道自己具體有多少錢。在不借助可信第三方的情況下,如何完成這次比試呢?
在密碼學領域,這個問題可以被描述為,“一組互不信任的參與方之間在保護隱私信息以及沒有可信第三方的前提下的協同計算問題”。
上個世紀八十年代,姚期智院士提出和解決了這個經典的**「百萬富翁」**問題。隨後他又用數學理論證明了,凡是可以在明文數據上進行的計算,理論上都可以在密文數據上直接進行計算,並得出與明文計算完全一致的結果。也正是在這個基礎上,「多方安全計算(Multiparty Computation, MPC)」這門現代密碼學的重要分支正式誕生。
圖:姚期智提出「多方安全計算(Multiparty Computation, MPC)」的論文
MPC技術就是為了解決傳統的密碼學難題:讓數據在不泄露的情況下,聯合多方數據進行協同計算,並得到準確的計算結果。
當前主流的數據計算方式是基於明文的,雖然數據從傳輸到保存都是在加密狀態下,但在芯片中進行計算的時候,是需要先解密再計算,計算結果也是明文的。也就是説在計算的時候數據仍然是明文,因此在計算的過程中,依然存在泄漏的可能,在理論和實踐上都是不安全的。
傳統數據加密和多方安全計算最大的區別在於,傳統數據加密是隻解決了數據傳輸和儲存的安全問題;它的基本信任假設是信任數據的使用方,不信任中間的存儲環節和通訊媒介。
但是實際上,阻礙數據流通的,或者説最容易出現數據濫用的環節往往是數據的使用方。
所以從理論上講,在每次數據流通發生前數據所有方都必須確認:使用方的**硬件是不是ok,軟件有沒有可能被攻破,操作的人員是不是可靠?**更重要的是,使用方是不是本身就是惡意的?
而多方安全計算解決的問題就是,從技術上讓數據使用方無法“看見“和濫用數據。數據在輸入芯片進行計算的時候,不需要解密,直接在數據密文上進行計算,得出的計算結果也是密文的。這就有效解決了計算過程中的數據安全問題。多方安全計算的安全假設是不信任硬件、不信任軟件、不信任人。
在解決可用不可見問題後,怎麼規定數據的“用途和用量”呢?
剛剛我們提到,數據無法成為生產要素的另一大限制,就是雙向形成了無限供應和無限需求,數據一旦被看見就是無限供應;同時一旦明文數據被需求方拿到,也就可以被無限制使用,在無限供應和無限需求的世界裏,根本無法進行定價。
不僅無法定價,因為沒有明確限制數據使用範圍就交出數據,也釀成了不少悲劇事件。文章開頭提到的2018年Facebook的數據泄露醜聞事件就是因為沒有技術手段來限制數據使用方的使用用途(算法)。
因此,規定數據的用途和用量對於數據流通來説至關重要。也就是説,讓每一次提供的數據,只能用來做規定的計算。
清華大學的徐葳教授,一個姚期智院士親自從谷歌“挖”回清華的青年研究者,幾年前就開始探索如何解決這一難題。
“這是困擾整個大數據圈的問題,我看到的時候就立刻想到了密碼學和姚老師,也立刻跟姚老師討論了“,徐葳告訴我們,“這其實是密碼學在理論上已經解決的問題,通過多方安全計算,避免泄露數據明文本身,就可以規定用途和用量了。”
明文數據有無限的測信道,而如果轉換成在密文上進行計算,就可以規定相關計算因子的用途和用量了;多方安全計算幾乎是為解決這一難題量身定製的。
數據在輸入芯片進行計算的時候,是密文狀態,計算後得出的結果也是密文的。也就是説,這個時候參與計算的已經不再是數據了,而是本身不承載任何信息的密碼碎片。徐葳將這種狀態的數據稱為“計算因子” 。計算因子本身不承載任何信息,一用一密 -- 具有“圖靈完備”的計算價值,同時,其計算價值本身沒有受到任何損害。
打一個形象的比喻,加密數據一般被認為是加了密鑰可以被解開,就像洋葱,扒開外衣可以得到;但是多方安全計算下的數據被搗成**“洋葱泥”**,一用一密,用了就沒了,這就從根本上解決了數據的泄露和濫用問題。
通過MPC技術,數據流通的兩個難題“可用不可見”和“規定用途用量”的實現都被解決了。
但是,天下沒有免費的午餐。多方安全計算對算力的耗費是明文的百萬倍級。從理論到工程實現,有一條很長的路要走。
多方安全計算的工程化,“百萬富翁”設想走進現實
經過了三十多年,計算機理論和技術有了飛速的發展,正如姚期智先生所説,“計算機終於足夠快,能夠把這三十年大家不斷改進的(MPC技術)方案開始運作起來”。
目前多方安全計算已經具有了初步實用性,應用手段也不斷取得突破。
去年接受《人民日報》採訪時姚期智先生曾表示,當年提出這個概念的時候,完全出於自己科學的好奇心。但現在,多方安全計算已經在政務數據共享、金融科技、人工智能、醫藥保健等領域的數據共享方面開始發揮重要作用。
在華控清交信息科技(北京)有限公司(下稱“華控清交”),一羣人正在致力將這個技術工程化。這家公司由清華大學於2018 年6月發起成立,成立不到兩年時已完成兩輪融資,投資方包括港交所、聯想集團和高榕資本,上輪估值十數億元。
能獲得如此高的估值和眾多投資方的青睞,華控清交有什麼秘密武器?
首先,基於多方安全計算理論,華控清交的隱私保護計算技術基於經嚴格數學證明的密碼學理論,**運用密碼學理論在計算機指令集和編譯器層面用密文運算替代了明文運算,**建了密文運算體系,並極大地優化了計算性能。
同時,剛剛我們提到,多方安全計算對算力的耗費是明文的百萬倍級。在過去的兩年多,華控清交做的就是,把基於密文的計算的算力耗費從初始的6個數量級(百萬倍),通過持續的工程和算法研發和優化,降低到了目前的1-2個數量級(十到百倍)。
可以説,將姚期智先生多年前的理論落地,初步實現了工程化。
事實上,“工程化”這個題目並不比理論問題更容易。
採訪中,華控清交的聯合創始人徐葳告訴我們,要實現大規模使用擴展,首先在系統和硬件上,需要將多方安全計算的算力耗費控制在可以接受的範圍;其次需要對接現有的大數據領域的基礎設施;然後從易用性方面考慮,需要讓系統更容易編程,讓用户通過Python和SQL語言都能夠便利地自行開發應用;此外,還需要配備必要的配套算法庫,讓不懂基礎算法和密碼學的多數用户能夠直接調用基於密文的計算函數和分析工具。
華控清交以多方安全計算為核心技術或者説連接性技術,通過與其他基於明文的隱私保護計算方法相結合,使多方數據在信息相互保密前提下實現高效數據融合共享與綜合挖掘利用。
據介紹,華控清交的計算平台可以在多方輸入且不暴露輸入信息的情況下進行密文協同計算,最終得出與明文一致的密文計算結果,並且實現了支持涵蓋AI訓練算法在內幾乎全部的計算類型和多種數據格式。
目前,華控清交已經自主開發並推出了一系列基於多方安全計算的技術和標準,為打破數據壁壘和連接數據孤島奠定了技術基礎,也為數據確權和大規模數據流通創造了條件,具體項目已經在政府領域數據互通共享、金融行業隱私保護查詢和多方聯合風控建模,能源行業效率優化等場景落地。
“建立國家級的數據電網”
當前社會的數字化轉型轟轟烈烈,挖掘更高維度的數據價值以及數據上雲迫在眉睫。然而,數據流通所需要的基礎設施建設還很不完善。
圖:華控清交描繪的社會化數據價值閉環示意圖
出於對數據歸屬、數據安全和隱私保護的顧慮,導致數據價值鏈不同環節之間區隔和障礙重重,專業化分工協作十分脆弱,很難形成有效閉環。這也是當前的數據價值鏈閉環通常只能在同一個公司、平台或組織中形成的關鍵原因。
華控清交希望,應用多方安全計算技術可以打消數據價值鏈的不同環節對數據歸屬、數據安全和隱私保護的顧慮,真正打通數據價值鏈,強化大數據和人工智能的專業化分工協作,最終形成廣泛的社會化價值鏈閉環。
以多方安全計算為基礎的隱私保護計算技術的工程化和產業化,無疑為數據流通融合、打破數據壁壘、連接數據孤島創造了條件,為數據生產要素化奠定了技術基礎。
姚期智曾經表示,“MPC將是中國貢獻給世界的一個原創關鍵技術。”而華控清交毋庸置疑,希望成為這個技術落地的載體。
通過密碼學層面的安全協議,注重數據輸入、計算和輸出全過程的保密性和計算結果準確性,華控清交的產品在技術上能夠規定數據的具體用途和用量(“合約計算”),在工程上還實現了密文和明文混合計算以及動態數據(數據流)密文計算。目前,華控清交在這個領域正走在世界的最前列,已經現實了數據“可用不可見”和 “規定數據用途用量”這兩大數據科學難題,並且正在不斷地在工程上完善、優化和提升,使它更加高效、通用和易用。
圖:華控清交對未來數據共享融合與交易流通所需的基礎設施的構想:政府、機構、企業、民間、個人等多個層次;MPC、FL、TC、DP、DM 等多種隱私計算技術和區塊鏈的結合;是基於合約的隱私計算技術、算力和通訊帶寬的結合體,是國家數據要素交易流通的基礎設實施。
在最近的一次內部演講中,華控清交CEO張旭東如此向全體員工描繪這家公司的使命:為數據生產要素化提供框架、工具和平台,使數據可以安全流通共享從而真正成為生產要素。
“如果把數據看作是一種能量,那麼我們正在做的是開始建立國家級的數據電網。”