關於大數據的一切丨大數據的未來VS大數據預測未來_風聞
云猜预测家-“超级预测者”的资讯站和训练营。2019-11-08 16:30
首發於微信:超級預測
導語:大數據通常有兩層含義。首先,它反映了當下不斷增長數量巨大的數據洪流。其次,它通常也意味着用於蒐集、評估和存儲這些海量數據的技術和對其進行分析的方法。以互聯網平台積累為代表的大數據因其及時、準確、相對低成本、顆粒度高和樣本量大等特點對預測行為有着獨特的優勢。這也是雲猜今天在此與大家一起聚焦大數據的原因所在。數據本身不產生價值,如何分析和利用大數據,令其“增值”才是關鍵。

“很多人還沒搞清楚什麼是PC互聯網時,移動互聯網來了,還沒搞清楚移動互聯網的時候,大數據時代又來了。”——馬雲卸任演講
一個預測:到2025年,大數據容量預計將達到驚人的163ZB,即163萬億GB。對一個ZB的大小感到好奇嗎?它可以儲存大約20億年的音樂。
本期導覽(建議閲讀時間:12分鐘)
什麼是大數據?
大數據的未來
什麼是預測分析:將數據轉化為預測

什麼是大數據(Big Data)?
“大數據”的定義:
知名研究機構高德納(Gartner)給出的定義是:“大數據”是需要新的處理模式才能具備的更強決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
管理諮詢公司麥肯錫(McKinsey)給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具備海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低等特徵。
“大數據”通用的定義是:“大數據”是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、複雜的數據集合。”
“大數據”的特徵:5個V

數據體量巨大(Volume);數據類型繁多(Variety);價值密度低(Value);處理速度快(Velocity);不一致性與不確定性(Veracity)。
“大數據”的類型:
社交數據(Social data);機器和傳感器數據(Machine-generated/Sensor data);傳統企業數據(Traditional enterprise data)。
僅僅在過去的幾年裏,人們就創造了今天90%的數據。當下的世界可以説是由大數據驅動的,這些數據主要來自互聯網,包括社交媒體、網絡搜索、短信和媒體文件。物聯網設備和傳感器也產生了大量數據,是全球大數據市場增長的關鍵驅動力之一。但將來會是一樣的嗎?在將大數據用於預測之前,我們不妨先來預測一下大數據的未來。
IDC最新發布的《全球半年度大數據支出指南,2018H2》預測在2019年度,大數據與商業分析解決方案全球市場的整體收益將達到1896.6億美元,相比2018年增長12.1%。IDC認為,在2019-2023年預測期內,全球大數據市場相關收益將於2023年達到3126.7億美元。那麼,這種增長將在未來以何種形式呈現給我們呢?

數據量將繼續增加
大多數大數據專家都認為,生成的數據量將繼續呈指數級增長。IDC預測,到2020年,它將達到44ZB。數據量將每兩年翻一番。如此快速的增長速度一方面來自越來越多的互聯網用户對在線的商業交流、購物和社交的依賴;另一方面,世界上有數十億的聯網設備和嵌入式系統每天都在創建、收集和共享大量數據。
預測2025年,企業因其具備存儲和分析大量的數據的能力,將創造和管理60%的信息。與此同時,個人消費者在數據增長中也扮演着重要的角色。IDC預測,到2020年,每個人每分鐘將產生1.7MB的數據。
機器學習的快速發展將改變行業格局
機器學習是另一種有望在不久的將來蓬勃發展的技術,它將在大數據中發揮着巨大的作用。從2017年到2020年,機器學習全球市場的複合年增長率為44%,並有望達到88億美元,這是由不同類型數據的可用性和該領域的技術進步推動的。英特爾副總裁兼總經理魏磊説道:“機器學習的日趨複雜。而且,除了自動駕駛汽車,欺詐設備檢測或零售趨勢分析之外,我們還沒有看到它的全部潛力。”
“讓我着迷的是將大數據與機器學習,尤其是自然語言處理相結合,計算機自行進行分析以發現新的疾病模式,然後在數據中找到它們。”——伯納德·馬爾(Bernard Marr),著有《大數據:用智能大數據分析和度量來做出更好的決策並提高性能》(Big Data: Using smart big data analytics and metrics to make better decisions and improve performance)

數據科學家和首席數據官將會大受歡迎
數據科學家和首席數據官(CDO, Chief Data Officer)的職位相對較新,但市場對這些專家的需求已經很高。隨着數據量的持續增長,數據專業人員的需求和可用性之間的差距將大幅增加。領英(LinkedIn)職場報告發現,2018年,美國缺少15萬擁有數據科學技能的人才,是2015年的6倍。
數據科學家是那些通過不同的分析和報告工具來收集和分析數據並將其轉化為可操作的見解的專業人士,數據科學家與機器學習工程師和大數據工程師一樣,都是當今增長最快的職業。首席數據官則是公司中負責數據可用性、完整性和安全性的管理人員,隨着這一角色的重要性與日俱增,預測到2019年,90%的大型跨國公司將逐步填補這一職位。
“快速數據”和“可操作數據”將被提上日程
一些專家認為,大數據已經過時,“快速數據”(fast data)將很快取代它。與大數據(通常依靠Hadoop和NoSQL數據庫以批處理模式分析信息)不同,快速數據允許實時流處理信息。由於流處理,數據可以在一毫秒內迅速分析和預測任何事件。這無疑更有價值,更加便於在數據到達時立即做出業務決策並採取行動。

“可操作數據”(actionable data)是大數據和商業價值之間缺失的一環。正如前面所提到的,沒有分析,數量龐大且結構繁複的大數據本身毫無價值。專家説,99.5%的數據從未被分析過,因此未能提供有價值的見解。然而,通過分析平台分析特定數據,機構可以使信息準確和標準化,從而使得這些見解有助於機構做出更明智的商業決策,並改善自身的運營。
隱私仍將是這一領域的熱門話題
專家稱,數據安全性和隱私一直是緊迫的問題,而且這個問題將會變得越來越嚴重。數據保護的水平與數據增長率並不同步,這給保護數據免受入侵和網絡攻擊提出了新的挑戰。雷神(Raytheon)2018年的研究發現,82%的機構認為不安全的物聯網設備將在未來三年內導致大規模的數據泄露,更有80%的機構認為這對業務的影響可能是災難性的。
大數據的未來既令人恐懼,又令人着迷,它有望改變各種行業的經營方式,但海量的信息也會帶來一系列未知的挑戰。不可否認的是,隨着計算機的處理能力的日益強大,數據量越大,能在其中挖掘到的價值就越多。實驗的不斷反覆、大數據的日漸積累讓人類發現規律之所在,預測未來不再是科幻電影裏的讀心術。

電影《預見未來》(Next)
什麼是預測分析:將數據轉化為預測
2010年《科學》(Science)雜誌上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人是可以預測的。這意味着我們能夠根據個體之前的行為軌跡預測ta未來行蹤的可能性,即93%的人類行為可預測。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。而預測便是大數據最大的用途之一。
這就來到了與大數據息息相關,預測分析的領域。預測分析是一種假設性的數據分析,旨在基於歷史數據和分析技術,如機器學習和統計建模,對未來的結果進行預測。在先進的預測分析工具和模型的幫助下,任何機構現在都可以使用過去和當前的數據來預測未來幾毫秒、幾天或幾年的趨勢和行為。
**根據錫安(Zion)2017年發佈的一份報告,預測分析已經獲得了各大機構的支持。**預計到2022年,全球市場規模將達到約109.5億美元,在2016年至2022年期間,其複合年增長率約為21%。作為一門學科,預測分析已存在了幾十年,隨着從人員和傳感器採集的數據量以及經濟高效的處理能力的增長,預測分析的重要性也在不斷增長。
預測分析世界會議(Predictive Analytics World conference)的創始人,暢銷書《大數據預測:告訴你誰會點擊、購買、死去或撒謊》(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die) 一書的作者,埃裏克·西格爾(Eric Siegel)説,我們能對數據做的最有價值的事情就是“從中學習如何預測”。

在整本書中,西格爾提供了機構如何使用數據和預測分析來推斷未知事物的真實例子,它們的準確性也往往十分驚人。例如,流媒體巨頭奈飛(Netflix)利用大數據進行深度分析和算法預測,根據用户的觀影偏好來做個性化推薦。而為了更專注於“流科學”, 奈飛更是建立了一個新的團隊,通過研究數據算法來改善流媒體的體驗質量(QoE),進而為每個會員創造個性化的流體驗,根據觀看記錄和用户反饋在目錄中提高內容的技術質量。
另外一個例子發生在20世紀90年代中期,一位名叫丹·斯坦伯格(Dan steinberg)的商業科學家幫助大通銀行(The Chase Bank)預測數百萬份按揭的風險。大通銀行採納了斯坦伯格由數據驅動的預測分析技術,藉助斯坦伯格研發的系統來評估、處理大量的銀行按揭。這一技術除了應用於定向給用户發送建議貸款的郵件之外,更是精確預測了按揭申請人的未來還款行為,由此極大降低了放貸風險並增加了盈利。不難看出,這些機構均使用了預測分析這一技術來探索未來,並在此過程中定義合理的業務決策和流程。

最後雲猜還想提一下劍橋分析(Cambridge Analytica)這家數據分析公司。**英國脱歐派和特朗普之所以能在公投和大選中以微弱優勢取勝,劍橋分析功不可沒。即使我們尚不清楚某類確切的信息到底對英國脱歐公投和美國總統大選具體產生了什麼作用,但至少我們瞭解這家公司做了些什麼:它研究了遭到泄露的Facebook數據中用户的點贊行為,進而預測分析用户的政治傾向,再分別向目標讀者定向發送相關政治信息。**該公司前研究主任克里斯托弗·威利(Christopher Wylie)曾解釋:“比較嚴謹的人希望事事都有結構可依循,所以對他們而言,移民問題的解決方案應當突出秩序,而邊境牆便展現了這樣的秩序。你發送的信息可能在一部分人看來毫無道理,但在另一部分人眼中則顯得明智無比。”威利甚至用“將整個國家玩弄於股掌之間”來描述劍橋分析在一些選舉或投票中扮演的角色。
只要分析70個你在Facebook點過讚的內容,劍橋分析公司對你的瞭解程度將超過你的朋友;分析150個點贊,它將超過你的父母;分析300個點贊,它將比你的妻子或者丈夫更瞭解你。5月,利維坦式的劍橋分析公司在媒體的負面報道中宣告破產。但不論是在公共領域,還是在私人領域,仍有為數不少的機構在從事類似的數據分析。
劍橋分析公司的前任首席執行官亞歷山大·尼克斯(Alexander Nix)曾説:“只要有人願意相信,真相不一定要是真的。”也許,這又把我們的問題從技術帶向了倫理的範疇。**“大數據”究竟是在揭露真相,還是在助長偏見呢?可以肯定的是,“大數據”影響的絕不僅僅是技術。任何數字技術都不僅僅改變了社會,改變了行業,也影響了人與人、人與物之間的連接。**也許我們對“大數據”的感受之所以真切,是因為在某個意義上來看,人類本身也是數據。我們已經來到了電影《銀翼殺手》(Blade Runner) 故事設定的年份和月份,能夠在此時思考一下這樣的問題,也許不早,也不至於太晚。