隱私保護機器學習是啥?專訪清華系創企RealAI瑞萊科技CEO田天_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2020-12-21 11:04

原創:譚婧
以侵犯隱私的方式處理數據,已屬非法行為,違法必究,犯罪分子,瑟瑟發抖。
但數據,作為人工智能(AI)的“石油”,不能簡單粗暴一刀切,如何加高數據安全的“圍欄”,加厚隱私保護的“盔甲”,是基礎中的基礎。
數據安全,保護隱私,第一要重視。總有人嬉皮笑臉,覺得丟了數據、隱私沒什麼。第二要有方法,技術得跟上。宏觀層面,“算法可靠、數據安全和應用可控”,早已提上日程。
純聊技術,哪些方法可以破解?
答案是“隱私保護機器學習技術”。技術背後的道理很樸素。從數據中“走”出來的信息,既能夠完成模型訓練,又不能丟失、泄露、互換數據,暗地裏搞些見不得人的事情,從而保護了隱私。
有了安全的技術,很多以前失控的事情,都變得可控起來。比如,在AI模型訓練時,用於AI模型訓練的數據不能交換,留在原地不動。但是AI模型的信息在多個地方交換。為AI算法模型性能提高,提供了“養分”。
AI模型性能越高,越“聰明”,越“智能”。
“隱私保護機器學習”技術有啥特點?
特點一,異地戀。(“多個地方”也就是必須用分佈式算法和系統。)
特點二,保鏢傍身。(請了“密碼學”做保鏢,傳輸模型參數以加密的方式進行,算法設計方法的根本變化是密碼學參與。)
如此一來,這一技術是桃園三結義。分佈式、密碼學與人工智能三者強強聯手,清華學霸就是喜歡挑戰高難度技術,無難題,不興奮。
對了,是不是應該把這一技術叫做“分佈式隱私保護機器學習”?
不是,因為隱私保護機器學習必然包含了分佈式技術。
所以,前綴再加分佈式,就重複了。
(註釋:隱私保護機器學習並不是一個全新的概念,類似的術語還包括聯邦學習,但為了強調隱私保護的理念,文章中我們使用隱私保護機器學習一詞。)
當業界都在討論,“強監管下的數據應用”會不會造成“數據用不了”,AI沒了數據,人工智能變人工智障,怎麼辦?
在2020年最後一個月,清華系學霸創企RealAI利刃出鞘——推出一個名叫“RealSecure”的隱私保護機器學習平台。
此處應有掌聲,大約持續三分鐘。
現階段,隱私保護的AI算法和系統的開發與部署有很多難題,因為隱私保護機器學習的技術、開發者、生態都大不相同。
換句話説,就算有不少機器學習的積累,也甭想立刻上馬“隱私保護機器學習”技術。
這一點沒有擼起袖子,幹隱私保護的企業,是感覺不到的。
更糟的是,也沒有什麼別國經驗可以借鑑,國外企業一出事,要麼動輒高額罰金,要麼股價異動,被人聲討。如果“對不起”有用,那要警察干啥。
先遣部隊,總是最先遭遇最大火力的狙擊戰。
一般人能看到的表象是,將AI的各類算法被改寫成的隱私保護的專屬算法,比如XGboost算法改寫成聯邦XGboost算法,堆算法工程師的人力,用手工逐個改寫模型,有可能還需要重新組建一支專門做隱私保護機器學習的團隊。
本質上,已有的AI方法論和隱私保護AI技術並不能天然複用。換句話説,雖然都是AI技術,但是隱私保護機器學習是融合多學科的,密碼學、AI算法,還有通信。
一個普通的AI算法工程師,想要夠到隱私保護機器學習技術,需要對這些學科知識都有所掌握。
一號難題,少量的模型改寫工作是有進展,但是效率慢。
二號難題,開源平台有一定的支持,但是範圍有限。
這些困難無法解決,也就意味着隱私學習技術的大規模商業化落地,道(hao)長(wu)且(xi)阻(wang)。
困境都看到了,重點在於,誰來解決?又怎麼解決?
隱私保護AI編譯器架構在這種背景下應運而生,官方説法是:“這是一種編譯器級別的隱私保護機器學習工具。”
那麼問題又來了,為什麼要從編譯器層面入手呢?
計算機常識告訴我們,計算機編譯器承擔着集成電路機器碼(二進制)和代碼的底層“翻譯”工作。
深入編譯器層面,更易對“以隱私保護為目的”的底層技術的革新。
那是不是從數量和規模上,編譯器就成了“計算機技術革新的入口”?當然不是,因為編譯器技術是非常有難度的底層技術,有了金剛鑽才敢攬瓷器活兒。
我們接着聊革新,宋朝人笑了。中國四大發明,三個都誕生於宋代。
北宋仁宗慶曆年間,畢昇發明了一種更進步的印刷方法——活字印刷術,把我國的印刷技術大大提高了一步。
四方長柱體膠泥制字,一字為一印,一個個漢字印可以理解為一個個“算子”,算子盤就是活字庫。
算子盤裏可以實現靈活的組合,用來適配多種多樣的機器學習算法公式,這樣就有了一個解決通用性的好抓手。
有了算子盤,隱私保護機器學習,從“雕版印刷”,邁向了“活字印刷”。
RealAI CEO 田天説:“這個名叫‘RealSecure’的隱私保護機器學習平台,其實是一個‘活字印刷版’的隱私保護機器學習平台。”



越是底層技術,對上層建築物的影響越大。近千年前發明活字印刷,繁榮華夏文化,宋體到現在仍在使用,可見其影響力。
底層編譯器做得好,上層自動化空間大,就容易出現意想不到的優化效果。因為編譯是一個自動翻譯和自動優化的技術。
“隱私保護AI編譯器”是從商業角度出發的一種定義,本質是:調優、分佈式、加密工作自動完成。
一個能稱得上“獨家”技術的產品,肯定不會只有一門絕活。
官方的產品邏輯是:隱私保護AI編譯器架構,以“數據流圖”,可視化算法計算邏輯,針對不同算法可實現自動編譯生成,最終,實現數據隱私安全性的自動驗證。
想要説人話,得這樣表達。
要保護隱私,傳出去的消息一定要經過“武林高手”的保護。多方安全計算、密碼學都是武林高手,且還有個共同點,練功講究排場,消耗非常大,也就是“代價大”。
消耗大,就得有一把尺子,來衡量全盤得失,清華學霸科學家就給“尺子”起了個名字,叫做“計算代價”。
數據流圖如何工作,很依靠這套閉關“七七四十九天”自研頓悟出的量化機制。
計算代價包括什麼呢?其一,加密的代價。其二,通信的代價。其三,本地計算代價。
把隱私保護機器學習的過程拉成一幅清明上河圖,畫家在找地方,在哪畫有北宋特色的地標性建築?科學家也在找地方,在找“哪裏需要加密?”
需要加密的地方是數據泄露的風險點。高危地點,得亮起猩紅色刺眼的信號燈。
以前,都是科學家用人腦來判斷信號燈的位置。比如哪一部分是A執行,哪一部分B 執行,A到B該不該加密,該怎麼加密……RealAI CEO田天認為,這個過程得自動化,不能光靠人,得靠編譯器的判斷。
機器依靠“計算代價”的“成績單”,來做決定。
這個決定,是整體判斷,因為是一個整體調度的過程。只有編譯器級別技術才有資格從調度的角度去思考問題。
所以,隱私保護AI編譯器來了。
在很多人還在實驗室裏埋頭苦寫隱私保護AI編譯器論文,這幫清華AI學霸,已經把產品推向市場了。
業務團隊和銷售團隊接過研發團隊的接力棒,衝向需要隱私保護地方,準備一展身手。
RealAI技術和產品的自信都來自底層技術棧。RealAI CEO田天告訴《親愛的數據》:“RealAI的AI技術優勢不是產品規模與知識產權的數量,而是底層技術棧優勢。”
“底層”是技術發力點,“棧”意味着積累。
從技術角度來看,這個從底層技術棧中噴薄而出的,解決問題的“神器”是RealSecure,它的核心是隱私保護AI編譯器架構。
我們細看一下,隱私保護AI編譯器還有哪些自研的秘密?答案是,數據流圖。
以前的思路是,密碼學專家協助證明隱私保護機器學習模型的安全性,但也有槽點:“你的代碼那麼長,讓專家審核,專家敢對安全負全責嗎?”
專家的判定是非標準化的,但是標準化更穩定,更容易解決信任問題。
有了數據流圖,過程清晰可見,在隱私保護裏,可以成為一種標準。有了標準,不用把證明安全性的大山壓在專家身上。
大家都帶着數據流圖去展示,相當於用同一套語言去溝通,就可以證明或者説更容易獲得安全方面的信任,容易達成共識。
這裏的“大家”是指,隱私保護機器學習各方。

怎麼建AI模型,就怎樣建隱私保護機器學習模型,不用重新學習隱私保護機器學習的建模技術,AI建模的技術與經驗照樣用。
這裏補充數據流圖工作的全套過程,學渣可跳讀:
首先,整體生成數據流圖,再對其進行分析,再判斷潛在的數據泄露風險點,並根據性能模型計算每個操作符在每個參與方的計算代價。
以計算代價最小的方案,得到每個操作符執行方的方案,即切圖過程,這也是模型分佈式計算的過程。
“自動完成以隱私保護為目的的模型並行”,這句話並不簡單。“自動”這個動作,需要“專家級別的知識”,是以安全計算專家知識為驅動的靜態自動模型並行。
此處,還得喊一嗓子,分佈式帶來的“異地戀”問題,解決了。
RealAI CEO 田天講出了技術突破帶來的好處:“廣角鏡頭下,以數據流圖的視角揭示機器學習算法與分佈式隱私保護機器學習算法的聯繫,有助於實現兩種算法生態的一體化。”
AI技術用單兵深入的打法已經越來越難,平台產品是一個趨勢。
那麼,什麼樣的平台產品才能幫到隱私保護的數據生態?其一,完善、安全、便利的拉通方式,其二,服務不同行業(業務)、不同類型、不同維度的數據,其三,很高的性能,速度上不去,技術天天拖業務的後腿。
能同時解決這三個問題的技術路線,可謂一條“少有人走的路”。
RealSecure隱私保護機器學習平台能從計算基礎設施的硬件層,系統平台層和應用軟件層三個層面全方位發力。
市場上,AI產品通常定位SaaS或者PaaS,最多下沉到硬件的優化,而隱私保護和數據安全類的產品的天然屬性設計,會滲透到SaaS、PaaS、IaaS所有層面。
首先,RealSecure隱私保護機器學習平台,從軟件層面上,可以看做是SaaS產品。
再者,從所有數據具有決定性意義的產業生態層面上,可以看做是PaaS產品,能提供一個數據生態平台。
從企業數據化轉型發展一定基於數據能力的層面,又可以定義為IaaS級別的產品,具有極強的基礎設施屬性,安全責任滲透在計算架構的所有層面。

最後,RealAI CEO 田天也提道:
“我們採用的技術路線目前已經可以支持抗量子攻擊,屬於底層技術棧的優勢”。由於涉及企業商業機密,這次產品發佈會沒有詳細解釋抗量子攻擊的技術與產品內容。
(完)
這裏還有個註釋,別錯過:谷歌在這一領域也有涉足,在大名鼎鼎的深度學習框架TensorFlow的基礎上,搭建的TF-Encrypted(Python軟件包),它綁定了“秘密共享(secret-share)”這一多方安全計算技術,作為底層支持。準確地講,TF-Encrypted屬於綁定應用級的實現。RealSecure產品有秘密共享技術、全同態加密、半同態加密等底層密碼學技術。在實現上,RealSecure產品更側重中間層的流圖展示級實現。總體來説,“TF-Encrypted”和“RealSecure隱私保護機器學習平台”不可以放在同一個層面上比較。你還可以看:
1.黑客如何用一副紙眼鏡,就“弄瞎”人臉識別算法?
2.世間可有“最低訂單IT成本”? 京東顏偉鵬的《善戰兵法》:
3.揭秘AI 公司盈利“生意經”,竹間智能CEO簡仁賢的AI產品化和工程化
4.超級計算機與人工智能:大國超算,無人領航