編織聯邦學習的產業路徑,騰訊向金融智能化的更遠處進發_風聞
脑极体-脑极体官方账号-从技术协同到产业革命,从智能密钥到已知尽头2020-04-21 18:06
這屆人工智能能夠化身“新基建”的中流砥柱,避免了重蹈“AI寒冬”的覆轍,一個很大的原因就是,機器學習從產業層面提質增效,真正讓技術變成了社會經濟的價值推動力。
技術高速迭代的時代,也讓無數從業者和普通人痛並快樂着。因為需要不斷打開認知通道,敢於去觸摸那些剛剛被釋放出來的產業能量。
近日,江蘇銀行與騰訊安全共同舉行聯邦學習應用服務簽約儀式,開啓了聯邦學習的“從雲端到產業地平線”的落地之旅,也激發了不少人對這項技術的好奇。
聯邦學習、金融業,與騰訊之間,如何搭建起一個屬於未來的智能產業生態,是一個值得思考的議題。
聯邦學習:聯合與分治的技與藝
對於關注AI的讀者來説,聯邦學習並不陌生。
自從2016年穀歌最先提出並應用之後,聯邦學習就被看做是下一代人工智能協同算法和協作網絡的基礎,國外如亞馬遜、IBM,國內如BAT、華為、平安等科技公司在積極部署和推動聯邦學習產業化的進程。
簡單來説,聯邦學習就是隨着人工智能,以及分佈式計算、區塊鏈等技術的協同發展,自然迭代出的系統化方案——在保護隱私的前提下,對多方的大數據價值進行挖掘,實現AI模型的訓練與性能提升。
為什麼需要聯合與分治共存,要從當下以機器學習為代表的人工智能應用中的很多現實問題説起。
一方面,人工智能逐漸普及,對隱私安全的監管越來越嚴格,面對GDPR等一系列法律法規的出台,以數據為訓練基礎的深度神經網絡必須做出改變,適應新的社會規範;
但是,合法合規的管控,又會加劇數據孤島問題。不同機構和企業各自為營,捍衞自家的用户數據,讓許多優秀算法模型無法得到充分的數據養料和有效訓練,自然會給AI性能和準確率帶來枷鎖。
聯邦學習,就在高質量數據的分與合之間,找到了辯證統一的平衡點——在不共享原始數據的前提下,利用雙方的數據實現模型增長。
舉個例子,假如A是銀行,B是社交平台,C是出行打車平台,分別擁有各自的用户相關數據。現在ABC想要聯合訓練一個機器學習模型,來預測經常出沒在哪些地區、關注哪些興趣話題的人,擁有更高的償債能力。
如果各個平台之間直接進行數據交換,作用用户肯定會擔心暴露自己的隱私和信息安全。但不交換又該怎麼訓練呢?
答案就是,都使用聯邦學習技術。在加密狀態下,找到共有的用户,這樣彼此都不知道數據對應的關鍵用户信息。用這部分數據來提取特徵,並在自己的服務器上進行訓練和調參,既遵守了隱私保護法規,又能夠補充自己不具備的數據信息、提升雙方模型的能力。
如此皆大歡喜的方案,大家怎麼不快快都用起來呢?
某種程度上來説,聯邦學習也是一張集合了心理題與技術題的綜合考卷,只有都答對的企業才有可能推開這扇大門。
總的來説,聯邦學習雖好,卻也伴隨着許多亟待解決的新問題:
1.各個AI企業之間的協作信任關係很難建立。
以前企業想上馬AI,都是單打獨鬥式地運用自身數據自主訓練,聯邦學習要將各個不同行業、領域的企業併入一套標準化的系統,在一起進行多方聯合建模。
這種合作就像南方人初入澡堂,要卸下重重防備一起享受實屬挑戰。如何從技術端保障企業之間的數據安全,讓大多數公司願意將數據拿出來和其他夥伴交換,有先鋒公司和標杆案例的出現,用實打實的應用效果,來解決信任問題。
2.數據樣本的複雜化,訓練環境的不一致。
即使有公司願意加入聯邦共同成長建模,也必須面對現實中,不同企業和機構所處的計算環境、網絡環境、數據環境各不相同的境況。
比如有的公司數據質量差,沒有進行標註無法被訓練;有的數據分散,不同部門之間沒有數據合作;還有的數據實時變化,需要花費人力去維護,缺乏聯邦學習的動力。
3.“要想富先投入”,聯邦學習的額外成本。
通過聯邦學習降低數據、建模的綜合成本,提質增效,是產業的初衷。但圍繞聯邦學習搭建團隊、溝通對接、進行訓練,也需要投入一定量資源來完成,又進一步提升了聯邦學習產業化的門檻。企業不僅應該着力想辦法降低成本門檻,同時也要讓新參與者接收初期成本。
通過這些問題可以看出,聯邦學習想要邁出真實的步伐,必須精準吸引那些“準用户”,來主動解答這張前沿試卷。
開啓智慧金融新篇章,騰訊扮演了三重角色
聯邦學習藉由金融場景落地到普通人身邊,自然不是無緣無故的。騰訊安全在此時向銀行和金融機構交付聯邦學習應用服務,在我看來,是在鍛造新的產業“內燃機”。
一方面,金融場景下數據保密等級高,安全要求更為嚴格;同時場景變化快,又對智能技術的升級迭代有着嚴苛的要求。在安全與升級之間,聯邦學習技術與金融領域就達成了一次情投意合的碰撞。
從中長期來看,金融領域的數據挖掘必然會持續受到法律法規的捆綁,這就要求其必須注重共建模型的搭建,學會“戴着鐐銬跳舞”。
此外,伴隨着傳統深度神經網絡算法的普及,金融機構和銀行也都到了進一步發展和提升自身技術水位,與同業拉開差異化優勢的階段,以爭奪增量客羣。
而伴隨着客羣的規模擴大,必然會帶來用户信用資質數據不足、質量參差不齊、風控風險高等潛在風險,此時聯邦學習提供的共同建模,就能從根源上來幫助企業利用AI提質增效。
金融領域毫無爭議地成為了聯邦學習落地的第一站。作為國內最早倡導“聯邦學習”技術的團隊之一,騰訊安全也交付了一整套聯邦學習應用服務(FLAS)產品。
對於盼望着技術甘霖從雲端降落到地面的金融領域來説,騰訊至少扮演了三個角色:
1.平台輸血者——打破信任僵局。
前面我們提到,聯邦學習想要發揮效用,既要打破各個企業之間的信任障礙,也要保障用户信息的隱私安全。
但大家的數據彼此之間不能“碰面”,模型訓練必不可少的特徵變量都變得不可見了,還怎麼聯合建模?面對這一難題,騰訊安全作為平台方,就起到了重要的“輸血”作用。
藉助騰訊在20年的安全攻防過程中沉澱出的大數據分析能力,以及騰訊安全服務中國99%以上網民所沉澱下來的黑灰產庫,積累出了三千多個風險種類的特徵變量。然後,騰訊安全對聯邦學習的框架進行了重新優化,在與金融機構的合作中進行融合,就能達到保護數據的同時,保障模型性能的效果。
比如在江蘇銀行的合作中,就基於對方資金流相關維度的數據沉澱下來的特徵變量和特徵工程,在可用不可見的情況下進行融合,只交換了機器學習的中間值(即梯度),在效果不衰減的情況下,達到了數據融合建模。
2.技術前哨站,探索應用業務創新。
任何前沿技術的產業下沉,最終都要落實到務實的商業價值上去,聯邦學習也不例外。
如何讓技術與自身業務相匹配?騰訊生態內的實戰訓練,就扮演了“前哨”的角色,以自身經驗+場景定製的方式,來為垂直行業進行鋪陳。
舉個例子,在辦理個人信貸業務時,除了用户所在地,包括户籍地、移動運營歸屬地、行為軌跡等數據之外,金融機構還可以通過申請,引入諸如興趣偏好、社交網絡、收入情況等互聯網產品的其他數據,通過縱向聯邦學習,來訓練自己的風控模型,實現更準確的綜合評估。
騰訊安全團隊在明確了聯邦學習與金融業務的最佳契合點之後,充分發揮技術效能,推進行業端敏捷的業務創新。對200餘個業務指標進行篩選與聯邦建模,聯邦學習聯合建模新模型的AUC值提升10%-15%,最大KS值提升50%左右,為江蘇銀行的信用卡智能化管理打下了基礎。
3.成本精算師。
騰訊安全聯邦學習的附加值,還體現在以高度可應用化的技術輸出形式,幫助企業控制技術升級成本。
首先,騰訊微眾銀行(WeBank)提出了工業級別聯邦學習框架——聯邦學習開源項目Federated AI Technology Enabler(簡稱 FATE);騰訊TEG數據平台部基於自研分佈式機器學習平台Angel,設計了一種“去中心化”的聯邦學習框架PowerFL,並研發了FM、神經網絡等聯邦學習算法。騰訊安全則進一步對這兩種計算框架進行了雲化部署,形成了PaaS級聯邦學習服務。
另外,基於騰訊的海量安全大數據,騰訊安全聯邦學習應用服務可以通過雲端的SaaS服務進行輸出,讓技術成果被快速下沉到產業場景中;用雲交付的方式,落地到業務場景中去,不需要企業再不需要再投入人力去現場訓練模型,就能達到彼此所需要的數據融合,進一步降低了訓練成本。
同時,支持海量互聯網用户參與對用户有價值的聯合建模,在個人隱私數據均不出個人終端設備的情況下,利用聯邦學習,金融業務可以更快速的迭代模型,更敏捷地適應市場變化,實現有價值的數據應用,提升業務的競爭力。集成化的軟件和工具,以及服務的高複用性,讓各種類型的金融機構不用 “重新發明輪子”,以低學習成本、高價效比的方式,就能實現AI聯合建模。
可以説,伴隨着產業智能化的繼續深化,以及聯邦學習的下沉,所產生的差異化優勢也將真正顯露出來,開啓金融業的新一輪技術競技。
編織AI新生態,向產業智能化的更遠處進發
金融領域是技術敏感度最高、數據監管最嚴苛的行業之一。
由此帶來了一個新的問題:當騰訊安全聯邦學習應用服務開始在金融領域落地,未來會發生什麼?
可以肯定的是,金融領域的AI規則必然會被改變。最直接的就是數據方將改變傳統上單打獨鬥的思路,開始以協作、融合的姿態聯合起來推動產業智能化效率的提升,未來也將改變行業獲取數據、搭建AI的方式和門檻,打破行業“巨無霸”的“數據霸權”,釋放出更多的數據生產力。
在此基礎上,金融領域的應用只是聯邦學習產業潛力的冰山一角。數據規制的嚴格化將是智能社會發展的整體趨勢,未來在零售、醫療、工業、政務等各個智慧場景中,聯邦學習都將擔負起捍衞安全、降本增效的責任。
從這個角度講,聯邦學習如同一個操作系統一樣,亟待建立一個標準化、生態化的繁榮技術圈。而與大數據打交道最為頻密的騰訊生態土壤,有着舉足輕重的價值。
陳壽在《三國志》中寫過,和羹之美,在於合異。把各種不同的數據味道合在一起,騰訊安全烹製出的這道名為“聯邦學習”的菜餚,也將是技術落地節點中,從智能社會的地平線上生長出的饋贈。