阿里達摩院開源新框架:入局隱私保護計算,解決異構異步難題,聯邦學習迎來重磅玩家_風聞
量子位-量子位官方账号-2022-05-05 15:07
明敏 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
沒人願意隨便交出自己的隱私。
當蘋果正式推出“應用跟蹤透明度”隱私保護功能時,只有**16%**的用户選擇了允許App跟蹤自己的活動。

但正如蘋果提示所説,有時又不得不用隱私數據來交換便利和服務質量。
於是一年後的今天,據Adjust數據分析公司統計,這一數字又回升到25%。
也就是説,更多的用户重新認可了接收個性化內容對自己的價值。
究竟有沒有方法能做到兩全其美,讓互聯網平台在嚴格保障用户隱私的前提下,仍為用户提供優質的服務?
還真有。
當下最主流的一種解決方案就是聯邦學習,一種用來建立機器學習模型的算法框架。
在聯邦學習的框架下,用户自身的數據從始至終都停留在用户自己的手機、汽車和各類物聯網設備等終端內。
同時,訓練機器學習模型需要的信息會以加密、加噪聲或拆分等方式保護起來,聚合到雲端的服務器進行模型更新,此後雲端再將更新的模型推送給用户終端。
通過這樣的交互和迭代過程,服務提供商既能夠訓練高性能的模型為用户提供服務,同時也能保護好用户的數據隱私。
聯邦學習2016年由谷歌首次提出,之後逐漸成為熱門研究領域。
學術上,論文發表數量迅猛增長。

**△**來自清華大學《2021聯邦學習全球研究與應用趨勢報告》
開源框架上,也匯聚了國內外眾多大廠。

**△**來自Github倉庫Awesome-Federated-Machine-Learning
谷歌Tensorflow-Federated是橫向聯邦學習的代表:
本地和雲端模型特徵共享,樣本數據不共享,更適合於C端同一企業為多個用户提供服務的情況。
楊強教授帶領的微眾銀行FATE框架是縱向聯邦學習的代表:
模型特徵不一致,樣本數據有重疊,更適合B端如兩家企業共享一羣客户但關注的特徵不同。
再進一步又有聯邦遷移學習,兼顧了上面兩者的特點,適用於參與者間特徵和樣本重疊都很少的情況。
就在最近,又有重磅玩家悄然入局:阿里達摩院開源新的聯邦學習框架FederatedScope。
**△**https://federatedscope.io
問題也隨之而來:
新框架與之前有何差異點與競爭優勢?達摩院為何選擇此時入局?
不妨先從聯邦學習領域現狀,和FederatedScope框架自身的特性來一窺究竟。
當下需要什麼樣的聯邦學習框架?
隨着5G、物聯網、雲計算技術的發展,聯邦學習涉及的設備的應用場景也越發多樣。
異構性成了對傳統聯邦學習最大的挑戰。
不同設備在算力、存儲能力和通訊能力上的差異稱為系統資源異構。
各個設備本地數據非獨立同分佈會導致數據異構。
不同的應用場景又會帶來行為異構。

這些異構性對聯邦學習提出了新的要求:
首先,聯邦學習參與方之間傳遞的信息形式會更加豐富,不再侷限於模型參數或者梯度這一類的同質信息。
如在金融、電信行業常用的圖數據上進行聯邦學習,參與方之間還會傳遞節點的嵌入式表示等信息。

**△**來自《Federated Graph Learning - A Position Paper》
豐富的信息種類要求聯邦學習框架能靈活支持不同類型的信息傳遞。
其次,跨設備聯邦學習不能再拘泥於傳統的“服務器端負責聚合,用户端負責本地訓練”模式。
服務器端往往需要對模型做壓縮處理,來滿足終端設備的運行要求。而終端設備還要負責對收到的模型進行微調來取得更好的效果。
多樣化的參與方的行為要求聯邦學習框架能夠靈活支持多種自定義行為。
跨設備還會帶來的各參與方響應速度和可靠性參差不齊的問題,需要聯邦學習框架允許開發者根據真實情況採用不同的異步訓練策略。
甚至跨設備參與方還會使用不同的後端環境,例如有些設備使用PyTorch,另外一些則使用TensorFlow。
這要求聯邦學習框架需要有更好的兼容性,支持跨平台組建聯邦學習,避免要求使用者費時費力地對所有參與方進行環境的適配。
最後,隨着聯邦學習從研究前沿逐漸走向工業應用,需要聯邦學習框架為單機仿真和分佈式部署提供統一的算法描述和接口,以滿足研究者和開發人員不同的應用需求,並降低從仿真到部署的遷移難度。
達摩院智能計算實驗室開源的新聯邦學習框架FederatedScope,正是為解決這些新挑戰而生。
對於消息類型和自定義行為,FederatedScope將聯邦學習看成是參與方之間收發消息的過程。
這樣便可以通過定義消息類型以及處理消息的行為來描述聯邦學習過程,同時支持用户通過添加額外的消息類型和處理行為進行定製化。
FederatedScope把聯邦過程(例如協調不同的參與方)和模型訓練行為(例如訓練數據採樣、優化等)解耦開,使開發者能夠專注於定製參與方的行為。
相比現有的聯邦學習框架,FederatedScope不需要從順序執行的角度考慮如何串聯不同參與方,降低了開發的複雜度及所需代碼量。

**△**經典聯邦學習

**△**FederatedScope模式
對於異步訓練,FederatedScope採用事件驅動的編程範式來支持,並借鑑分佈式機器學習的相關研究成果,集成了異步訓練策略來提升訓練效果。
對於後端跨平台支持,FederatedScope對訓練模塊做了抽象,使核心框架不依賴任意一種深度學習後端,能兼容不同的設備運行環境,大幅降低了聯邦學習在真實場景部署的難度和成本。
除了解決這些挑戰以外,FederatedScope還十分注意框架對多樣化場景的適用性,以及對開發者的易用性。
對此,FederatedScope集成了多種功能模塊,包括自動調參、隱私保護、性能監控、端模型個性化。
同時支持開發者通過配置文件便捷地調用集成模塊,也允許通過註冊的方式為這些模塊添加新的算法實現並調用。
例如通過註冊的方式使用準備好的新數據集和模型架構,可以方便的將經典聯邦學習應用在不同下游任務,不需要修改其他的細節。

為了讓即使是剛剛接觸聯邦學習的初學者能快速上手,FederatedScope提供了詳盡的教程、文檔和運行腳本。

同時FederatedScope也包含了常用的模型架構實現,對一些基準數據集也做了統一的預處理和封裝,以幫助用户便捷地開展實驗。
隱私保護計算發展到什麼階段了?
綜上不難看出,達摩院對於聯邦學習框架的考量,更多集中在了便捷與廣泛的應用方面。
之所以會形成這樣的局面,其實還要看整個大環境的變化。
從去年開始,隱私保護計算行業發展日趨火熱。
日前IDC發佈報告顯示,2021中國隱私保護計算市場規模突破8.6億元人民幣大關,未來增長率有望超過110%。
Gartner預測表示,到2025年之前,約60%的大型企業預計將應用至少一種隱私保護計算技術,達摩院2022十大科技趨勢同樣將隱私保護計算列為重要趨勢。
量子位智庫估算,截至今年3月,國內具有隱私保護計算相關業務的廠商可能已經達到150家左右。
整個賽道呈現出第三方初創公司、大型互聯網公司、AI軟件開發商、轉型公司、甲方自研參與的“混戰局面”。
市場蓬勃發展的同時,國家、社會對隱私保護計算的關注度也在增加。
2020年,國家將數據納入生產要素,與土地、勞動力、技術等傳統要素並列;
2021年,《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》《汽車數據安全管理若干規定(試行)》相繼實施。
可以看到,政府近兩年來一邊在大力培育以數據為基礎的資源市場,另一邊也在加速建立相關規範。
社會層面對隱私保護計算的需求也在增長。
尤其是近兩年來,健康碼、人臉識別等應用讓大眾看到了數據流通帶來的價值,但隱私泄露引發的安全事件也層出不窮。
這導致社會上關於合理合規使用隱私數據的呼聲愈加高漲,進而催生出隱私保護計算產業更多需求和場景。
實際上,量子位智庫分析,隱私保護計算產業非常重要的一層價值,就來自於為社會提供生產力。
量子位智庫分析,隱私保護計算的價值分為三層:
第一層:行業自身發展
第二層:產業協同發展
第三層:推動數據要素流通,提升社會生產力
預計到2030年,我國隱私保護計算行業的總市場規模將達到1134億。
其中第三層價值佔比最高,可達到62%;第一層、第二層佔比分別是11%、27%。

而另一邊,學術研究上近兩年對於聯邦學習、隱私保護計算的關注度也在增高。
去年7月,Gartner預測,在2021-2025年的週期中,聯邦學習將發揮主流作用,引導隱私保護計算的商業化大潮。
清華大學人工智能研究院聯合多方發佈的《2021 聯邦學習全球研究與應用趨勢報告》中也提及,聯邦學習科研發展呈整體熱度逐年上升趨勢。
研究論文產出量及專利申請受理量,中美兩國佔據領先主導地位。
2016-2020年期間,中國聯邦學習論文發表量為666篇,位居同期全球第一。
聯邦學習高被引論文半數來自中美,全球該領域學者也主要聚集在這兩國。
顯然,科研界與產業界出現了協同共進的趨勢。

**△**來自清華大學《2021聯邦學習全球研究與應用趨勢報告》
在此背景下,也就不難理解達摩院為何在此時以開源平台,入局隱私保護計算了。
但為什麼選擇從底層技術做起?我們找到達摩院的技術專家,直接求問思考和答案。
一方面源自於達摩院的自身屬性。
作為技術圈重磅玩家,達摩院自然更關注前沿技術本身的價值及前瞻性。
另一方面,還來自達摩院對隱私保護計算長期的洞察。
達摩院智能計算實驗室資深技術專家丁博麟,有着十餘年的隱私保護計算研究經歷。他在與我們的交談中提到,近兩年來,聯邦學習方面的科研成果開始集中湧現。
作為技術人員,自然而然想到從工具入手,推動這股研究浪潮更快前進。
“我們也是希望能夠開源一個輕量級、易用的平台,讓大家能夠在上面實現更多的科研協同,從而產生更多學術成果,並更進一步推動產業創新。”
舉個例子來説,現在很多服務商都需要申請用户的隱私數據權限,但每個人對隱私保護的要求不同。
在並不是所有人都願意提供數據的情況下,如何保證產品能不斷優化?
這就需要學界和產界進行共同探索。
FederatedScope開源平台便能為此提供一個模擬環境,支持多方聯合開發。
而最後探索出來的成果,達摩院也會將它用開源框架工具的形式固定下來,避免後續開發者重複工作。
達摩院智能計算實驗室高級技術專家李雅亮,負責了此次FederatedScope開源。
他表示目前這一版開源平台,主要是為技術開發提供助力,下一階段將會更加側重產業部署方面的考量。
而且除了聯邦學習,達摩院在隱私保護計算的其他領域(如多方安全計算、可信執行環境等)也有部署。
達摩院智能計算實驗室一直在密切關注數據安全和隱私保護方面技術發展,注重研究數據採集、數據共享和數據呈現等階段中用户隱私安全保護問題,同時關注降低數據損耗、提高數據分析能力等研究。
技術和法規之間的gap如何填補?
值得一提的是,在與達摩院兩位技術專家交談的過程中,**“合規”**一詞,被提及了20餘次。
與之相關的內容,不是技術在法規壓力下發展受限,在法規推動下蓬勃發展。
在隱私保護計算領域已有十餘年研發經驗的丁博麟提到,隱私保護計算技術的首要價值,就是促進合規。
這一點是任何一項隱私保護計算服務設計和開發階段,最先考慮的問題。
或者説,在合規條件下實現技術創新、讓數據流通價值更大化,是隱私保護計算技術的初衷之一。
那麼,怎樣才是合規的?技術的邊界到底在哪裏?
這個標準答案業內期盼已久。
實際上,我國不僅近年來出台多部數據隱私相關法律政策,立法嚴格程度也處於世界領先水平,這在一定程度上,促使我國隱私保護計算市場在起步較晚的情況下高速發展。
丁博麟認為,應該明確的邊界包括幾個層面:“哪些數據嚴格不能採集”,“哪些數據可以通過技術方案實現安全地採集和應用”,以及“哪些技術方案可以通過圍繞合規法條構建的安全模型檢驗、在什麼樣的場景下可被使用”。
近年來出台的法規逐步明確了第一層面的邊界,第二層面和第三層面的邊界還有待政府部門聯同產學研界共同探索。
這其中需要學術界來提供最核心和前沿的技術進展,也需要產業界從實際技術應用中提煉案例思考,共同為邊界的細化提供參考。
而當邊界更加清晰後,技術探索和產業發展的腳步還會加快,從而持續驅動數據隱私保護技術的進步和發揮數據應用的價值。

最後,回到文章的開始:
對於“隱私和便利是否能兩全”這個問題,你怎麼看?
FederatedScope開源地址:https://github.com/alibaba/FederatedScope
參考鏈接:[1]https://9to5mac.com/2022/04/14/number-of-users-opting-in-to-app-tracking-on-ios-grows-significantly-since-last-year/
[2]https://github.com/weimingwill/awesome-federated-learning
[3]https://arxiv.org/abs/2105.11099