從姚氏百萬富翁難題説起,真實的數據到底屬於誰?_風聞
造就-造就官方账号-发现创造力2019-08-14 22:20
造就第450位講者 季昕華
優刻得科技股份有限公司創始人兼CEO
非常感謝造就邀請我來參加這個大會。昨天晚上,我去見了我的大學同學。非常有意思啊,1999年他離開上海去美國深造的時候,我跟他之間有個小的賭約。
我説20年後我們比比誰更有錢,看看到底是中國學生畢業後賺的錢多,還是美國學生畢業後賺的錢多。更有錢的那個,要回同濟大學,我們的母校,請吃一塊同濟的炸豬排。
所以昨晚我們在浦東一個地方相聚,喝酒聊天,回想起當年這個有趣的約定。
但是我們發現這個問題解決起來並沒有那麼容易,因為我們兩個人都不願意把自己的身家告訴對方。
我想説:“哎,那能不能請餐館的服務員幫我們看一下我們雙方賬户上的存款數字”——也很難實現,因為我們也都不願意把自己卡上的數額告訴服務員,儘管他是第三者。
這問題怎麼解決呢?
其實,這就是著名的姚氏百萬富翁問題——當兩個人要比較到底誰更有錢的時候,那必須把彼此的所有收入,包括各種資產都公開給對方。但這個時候問題出現了,大家都不願意公開自己收入情況,有多少存款、多少股票、多少房子……
在現實生活中這種情況更多,比如説人工智能領域裏的醫療行業,它需要有大量的臨牀影像數據去做AI的分析,但不管是個人還是醫院都不會輕易把這些數據交給人工智能公司。分析工作就會很難推進,非常非常痛苦,因為找各個地方都拿不到數據。
數據流通的痛點和訴求
信息和數據是社會的重要生產資料,但在目前的環境下,數據很難被流通,很難被共享,為什麼呢?
因為數據和其他商品有個非常不一樣的地方,其他商品一旦給人家了,商品的所有權就發生了轉移,別人拿走之後很難再被複制。
但是數據具有非常好的可複製性,我把數據給了A,A拿完之後馬上告訴B,B又告訴了C,數據就這麼被無限複製,氾濫傳播,所有權很難釐清。
所以,保障數據在安全的情況下被使用,併發揮出它的價值,是一個亟需解決的問題。 比如剛剛提到的人工智能公司,它非常需要數據,但是,第一,它獲取不到數據,第二它沒法判斷這個數據的質量是不是好,第三個數據存在於每個單位內部,沒法形成連通性。
數據有連接才有價值,而且連接的數據量越多越有價值。但在目前情況下,數據的需求者拿不到數據,也沒法對數據質量進行判斷,就形成了一個一個的數據孤島。
同時,數據的擁有者對數據開放也有訴求。
**第一,他希望數據能夠安全可控地開放。**如果數據被拿走、被泄露了,那數據擁有者將面臨很大的安全和法律風險。
**第二,數據要和應用場景有深度的結合。**因為數據和產品密切相關,只有對應數據的場景才能獲得價值。
**第三,數據的價值問題。**一個商品能流通是因為它有價值,而且很容易被衡量出來,但是數據對於不同人的價值是不一樣的,比如病人的數據對醫藥公司很有價值,但那對普通人沒有價值,那如何對這個數據進行定價?這是當前難度非常大的地方。
另外,技術儲備不足、環境不允許,在面對多樣化的數據需求時,心有餘而力不足,以上四點就是當前面臨的一些難題。
數據共享的現有模式
那麼,怎麼樣能實現數據安全可靠地共享呢?目前全球有五個方案:
第一個就是我們現在常見的API方案。
它其實已經在全世界範圍內大量應用了,比如説大家在網上要註冊賬號的時候,都需要你把身份證信息發過去,這時候API(Application Programming Interface,應用程序接口又稱為應用編程接口,是一組定義、程序及協議的集合,通過 API接口實現計算機軟件之間的相互通信,提供通用功能集。它同時也是一種中間件,為各種不同平台提供數據共享)就發生作用了,它會把你的身份證信息,和姓名信息通過API方式發送到公安部的認證中心,檢測身份證號碼和姓名是否匹配。
它的好處是簡單,但這個公司有可能把你的數據存下來再次利用,同時,它要做複雜的計算的時候就發生問題了,它沒法比較你和另外一個人的關係,沒法解決説你的信用問題,沒法分析你的個人興趣愛好,所以API方式有它非常大的侷限性。
第二就是原始數據的線下模式。
數據只屬於所有者,然後讓別人進你的系統內進行分析,分析完之後在物理上做隔離,比如説因為醫院不敢把數據拿到外面去,就讓人工智能公司在醫院裏進行分析處理,最後只拿走結果模型,但這種方法的效率非常低,沒法實現多方的數據融合。
**第三種就是安全屋模式。**能夠把數據放到一個公共的安全屋裏,然後在安全屋裏進行分析處理,能夠比較好地解決問題之後把模型拿走。
第四種也是現在非常流行的,在國際上我們叫多方隱私計算。就是用區塊鏈技術以去中心化的模式,通過區塊鏈的智能合約,把算法下發到每個數據的擁有者手中,然後實現分佈式的確定計算。
最後一種,也是前幾年很流行的,我們叫數據的私下買賣方式,這種模式是違法的,已經被國家大量地限制和禁止。
前四種是當前的主流模式,第一種模式簡單但是拓展方向有限;第二種模式效率低且沒法融合多方。
安全屋模式能解決數據彙總分析處理的問題,但是還是要數據彙總,它會有個心理壓力,數據的第三方看到數據之後會不會泄漏出去,這是非常令人擔憂的事情,就像我和我到同學不願意告訴服務員我們的存款一樣。
第四種就是區塊鏈模式,通過去中心化,通過區塊鏈模式能夠讓數據真正地保留在本地,然後讓算法執行流動。
這幾種模式到底有哪些應用場景呢?
數據開放的應用場景
第一種場景是企業內部的跨部門的業務數據。
比如説一個做汽車的公司,同時有保險業務,保險公司非常希望集團內的汽車公司,把數據給到保險公司,但汽車公司不願意把數據交出去。
因此,我們可以通過安全屋或區塊鏈的模式,把汽車的使用數據讓保險公司去分析,最後把結果拿走,數據不會有任何流動,確保了數據的安全。
第二種場景是不同組織間的數據共享。
比如説某個監管機構,它要求各個公司把數據交給監管機構,如果在原始模式下,這些公司會非常擔憂把數據交給監管機構後,數據的所有權發生轉移了。現在通過安全屋和區塊鏈模式,可以實現不同組織之間的整個數據共享,可以保證數據被很好地使用,但不會被拿走。
第三個場景是跨組織的數據彙總和交換。
比如很多公司會通過獲取用户訪問網頁時留下的cookie來進行廣告定向投放,但為了保障數據安全和隱私,現在各個公司和組織之間的cookie越來越被限制了,那麼如何在保證隱私的情況下實現數據的彙集呢?
還有更重要的場景就是數據的對外開放。
你知道我們的數據都存在哪些地方嗎?
第一個是大家所熟悉的各種大的互聯網公司,第二是我們常見的政府部門,這裏面存了我們從出生、上學,到工作的所有數據。第三就是各種央企、國企, 第四種就是各種中小互聯網公司。
以政府為例,其實上海政府推行的一網通辦非常好,它打通了不同部門之間的數據,讓老百姓不再需要跑多個部門去證明我爸是我爸,現在你要辦一件事,最多跑一次就能解決問題。
此外,除了BAT這樣的大型互聯網公司,很多擁有數據的中小型公司本身並不具備很好的數據分析能力,這時候就需要專門的大數據和人工智能的公司來做這樣的工作,所以説人工智能將會是未來新一輪的社會驅動力。
如何讓數據創造更多價值?
但是我們要知道,人工智能如果能有大的成就,核心在於要有足夠的數據,並且在數據的使用、處理和分析中,很好地保護數據隱私。
去年歐洲頒佈了《通用數據保護條例》,簡稱GDPR,這個法案很好地保護了數據隱私。但也有報告指出,GDPR對使用數據的嚴格限定給整個行業、社會和科技帶來非常大的阻礙。
那在隱私安全和科技進步之間,如何能找到一個好的解決方案呢?
我們認為通過技術手段,通過區塊鏈,通過多方隱私計算,能夠實現數據的安全流通和使用,同時確保隱私,這會是一個非常重要的發展方向。
並且隨着5G的快速發展,社會各方各面的信息都會被快速地記錄、存儲和分析,那麼數據體量會更大,結合多方隱私計算,各種區塊鏈技術,使得整個數據可以在安全的情況下被使用起來,整個技術會更加成熟,人工智能的發展也會更為快速。
最後,還有一個非常重要的話題,數據到底屬於誰?
當我們使用互聯網服務時,互聯網企業會記錄下我們的數據,那這個數據的所有權,是屬於這些互聯網公司的呢?還是屬於我們?
現在有一些觀點認為這些數據應該屬於每個用户,也就是説,當Facebook使用用户數據的時候,它應該向用户付錢。
如果這個事情真的能實現的話,那未來每個人都是數據生產者,我們可以通過製造數據產生價值。
可能你在玩遊戲、買東西的時候,每一次鍵盤的輸入、每一次鼠標的點擊、你的攝像頭對你的記錄,都在為這個社會創造價值。使用這些數據的公司都要為你的每一次行動來付費,真正實現數據生產者和數據所有者的統一,同時也能打破數據的壟斷,保護好用户的隱私。
總而言之,數據作為新時代的生產資料,它的核心價值在於通過安全的流通,為社會創造更大的價值。