消除數據重力,從智能湖倉(Lake House)讀懂實現數據價值的未來_風聞
大数据在线-2021-05-28 18:22
忽如一夜春風來,湖倉架構似花開。
今年的雲計算市場,似乎誰不提湖倉架構誰就落伍。為何湖倉架構這麼火?如今看來,數據湖和數據倉庫加速互動,看似偶然、其實必然。
曾幾何時,很多用户因為本地數據倉庫方案各種侷限性而叫苦不迭;當進入到大數據時代,數據湖概念興起,人們看到了實現數據價值的新途徑,甚至還有廠商發出用數據湖替代傳統數據倉庫功能的聲音。
殊不知,數據湖與數據倉庫從來就不是取代與被取代的關係。在數據湖蓬勃發展的同時,數據倉庫藉着雲計算的東風,同樣在高速成長與進化。尤其是當我們踐行大數據十餘載、數據價值逐漸深入人心之時,驀然回首愈發明白:數據只有打通、流動、共享才能充分發揮其價值。
這也是以亞馬遜雲科技Lake House為代表的智能湖倉架構近年來廣受用户青睞的原因。數據湖與數據倉庫既不是非此即彼的二元選擇,也不是永不相交的兩條平行線,無縫流動、彼此補充才是二者最佳歸宿,也是加速挖掘數據價值的唯一途徑。
從亞馬遜雲科技Lake House智能湖倉架構,我們真正讀懂了實現數據價值的未來。
數據湖為何是必然選擇
眾所周知,數據已然成為一種關鍵的生產資料,成為數字化時代一切運轉的基礎。大量基於數據驅動的業務場景湧現,加速重塑企業與組織的生產、經營、銷售、服務等業務。
以銀行營銷為例,過去更多依賴本地部署的數據倉庫解決方案來制定營銷方案,數據模型範式有要求、維度單一、實時性差,導致營銷方案分析維度少、業務響應差,頗像“事後諸葛亮”;而如今的銀行營銷方案,通常構建在基於數據驅動的場景之上,會收集用户各種維度的相關數據,採用機器學習不斷學習訓練模型,實現在合適場景、合適時機將合適產品推薦給用户,並形成數據價值閉環,不斷完善模型,實時調整營銷策略,實現銀行與用户的雙贏。
一個小小的營銷場景恰恰反映出數據湖核心價值所在。自2010年Pentaho CTO James Dixon首次提出數據湖概念以來,數據湖之所以迅速被人們所認可,核心原因在於它幫助用户梳理清楚從數據存儲、數據匯聚到數據挖掘的過程,這恰恰是大數據時代下實現數據價值的關鍵基礎。
大數據時代,海量規模、類型豐富的數據每時每刻都在產生,而數據湖作為一個以原始格式存儲數據的系統,按原樣存儲數據,無需事先對數據進行結構化處理,可以存儲結構化數據、非結構化數據以及二進制數據等,並進行數據拉通、消除數據孤島,為數據分析、機器學習等提供極大便利。
數據湖概念深入人心,但數據湖落地卻並不是一帆風順,這十年以來各類代表廠商、營銷理念、解決方案層出不窮,失敗案例也不在少數,而近年來真正“撥亂反正”、率先走出數據湖價值落地之路則是以亞馬遜雲科技為代表的雲服務提供商們。
歸根結底,雲計算的彈性、可擴展性、存算分離等特性,使之與數據湖不期而遇時,在技術層面和使用層面高度契合,成就了實現數據價值的一段佳話。
當雲與數據湖不期而遇
雲計算與數據湖之所以能成為一對絕佳的CP,數據規模是關鍵因素。
看一個直觀例子,OpenAI GPT-1模型參數只有1.1億個,預訓練數據量為5GB,最新的GPT-3模型參數則高達1750億個,預訓練數據量高達45TB,模型規模和數據量增長了千倍,更何況那些基於AI模型的各種智能應用每天所產生的海量數據。
基於數據驅動的智慧應用爆發,帶來PB級甚至EB級的海量規模數據時,雲計算與數據湖組合帶來的價值愈發凸顯:當數據規模越來越大時,計算能力成為關鍵,而有了雲計算的彈性與可擴展,可以讓海量數據的存儲與分析更加容易;與此同時,雲計算與數據湖都廣泛採用分佈式架構與開源體系,技術迭代與進化得以加速,適應未來數據處理的新需求與新變化;另外,在雲上構建起數據湖平台之後,天然集成更多新技術與服務,例如更好支撐起機器學習等人工智能技術,實現雲數智的融合。
因此,雖然開源和存儲廠商是數據湖概念的先行者,但真正走出落地之路則是以亞馬遜雲科技為代表的雲服務商。
以亞馬遜雲科技為例,早在2009年就推出了 Amazon Elastic MapReduce(EMR)架構,實現跨 EC2 實例集羣自動配置 HDFS;2012年,亞馬遜雲科技推出了具有標誌性意義的雲數據庫倉庫服務Amazon RedShift;隨後,亞馬遜雲科技陸續打造出Athena、Glue、Lake Formation等一系列核心產品,逐漸形成完整的數據湖解決方案。
亞馬遜作為全球最大的互聯網公司,其數據規模、數據複雜度、數據處理難度、數據價值挖掘在業界無出其右,這使得亞馬遜雲科技對於數據湖的理解、使用以及產品打造等方面往往極具借鑑價值。
例如,數據湖構建的核心目的是為了數據分析與數據挖掘,因此快捷的交互式查詢就至關重要。以Amazon Athena為例,其簡單易用,採用標準SQL 分析 Amazon S3 中的數據,只需指向開發者存儲在 S3 中的數據,定義架構即可開始查詢,它無需執行復雜的ETL作業來為數據分析做好準備。
而數據湖無需事先對數據進行結構化處理,可以按照任何格式存儲數據,帶來最大的挑戰之一就是查找數據並瞭解數據結構和格式,此時數據目錄和ETL服務就至關重要。以Amazon Glue 服務為例,其核心解決思路就是為用户建立起無服務器架構的數據目錄和ETL服務,無需用户自己寫ETL管道,快速完成數據的抽取、轉換和加載。
此外,構建和使用數據湖並不是一件輕鬆的事情,隨着海量數據規模的不斷增加,數據湖的建立、配置、管理和使用的複雜性也會隨之增加,很多用户對於加載數據源、設置分區、定義轉換作業等複雜手動任務更是深惡痛絕。
此時,雲計算的優勢再一次凸顯出來。以Amazon Lake Formation為例,開發者只需手動定義數據源,制定要應用的數據訪問和安全策略,Lake Formation 會自動幫助開發者從數據庫和對象存儲中收集並按目錄分類數據,再將數據移動到新的Amazon S3 數據湖,大幅縮短數據湖的構建時間。
可以説,數據湖已經不僅僅是一個概念,更代表着過去十年用户實現數據價值的一種進化。在這個過程中,雲計算憑藉着彈性、可擴展、靈活的特性,不斷屏蔽數據湖從建立到使用過程中的各種複雜性,降低數據湖的使用門檻,加速實現數據價值的落地。
但這就足夠了麼?
攻克最後的壁壘
2020年是一個重要的分水嶺,全球疫情常態化以及錯綜複雜的內外部環境,使得企業無時無刻都面臨着不確定性,數字化時代的敏捷性和全局視角洞察能力正變得愈發重要,而數據的打通、流動與共享無疑是構建起敏捷性和全局視角洞察能力的關鍵所在。
換句話説,數據湖、數據倉庫以及其他數據存儲方案並不是彼此割裂,而是需要無縫協同工作,讓數據自由流動、共享與使用,讓基於數據的決策更加科學與精準。尤其考慮到海量數據規模成為常態的大背景下,無論是數據湖、數據倉庫還是其他數據存儲方案,其所存儲的數據量一直在不斷膨脹,逐漸衍生出一種新的現象:即數據往來、移動操作變得愈加複雜與困難。
亞馬遜雲科技將這種現象形象地比喻為“數據重力”。毫無疑問,“數據重力”是實現數據價值的最後壁壘。要想打破壁壘,Amazon Lake House智能湖倉架構來圍繞數據湖構建起專用數據閉環,實現以安全且受控的方式在不同數據存儲方案之間快速移動數據。
事實上,亞馬遜雲科技很早就致力於消除數據重力現象。早在Amazon Redshift誕生伊始,就允許從數據湖S3中導入數據進行分析,並且在2017年推出Redshift Spectrum引擎,打通數據倉庫對數據湖中數據的直接訪問;之後,2019年,亞馬遜雲科技將redshift spectrum 引擎命名為Lake House引擎;到2020年re:Invent大會上,亞馬遜雲科技提出Lake House智能湖倉架構。
Lake House智能湖倉架構關鍵之處在於以高度擴展的數據湖為核心,構建起專用數據閉環,實現以安全且受控的方式在不同數據存儲方案之間快速移動數據, 為不同業務場景專門構建的分析工具或數據存儲之間無縫的協同工作(例如:數據倉庫、搜索引擎、機器學習平台等)。
現實需求情況的確如此如此,例如,用户有時希望將來自Web應用程序的點擊流數據直接收集在數據湖內,並將其中部分數據移至數據倉庫以生成每日報告;用户有時又希望將特定區域內的產品銷售查詢結果從數據倉庫複製到數據湖內,進而使用機器學習對大規模數據集運行產品推薦算法。
隨着亞馬遜雲科技在2020年Re: Invent上公佈一系列新功能,Lake House架構逐步形成五大特徵:可擴展數據湖、專門構建的(Purpose-built)分析服務、無縫數據移動、統一數據治理、出色的性能與成本效益。
以無縫數據移動為例,亞馬遜雲科技的無服務器數據集成服務Glue已經日臻成熟,提供數據集成所需要的全部功能,自動發現數據並存儲Schema,與亞馬遜雲科技上運行的Aurora、RDS、RedShift、S3和數據庫引擎天然集成。通過Glue elastic view, 開發人員使用PartiQL即可在多種數據庫及數據存儲方案內創建物化視圖,幾分鐘就能完成跨數據存儲方案的數據合併與複製。
又如,在當今海量數據規模的環境中,對於數據訪問活動的授權、管理和審計等一系列治理至關重要。例如,如何實現跨組織內各類數據存儲方案的安全管理、訪問控制與審計跟蹤,往往因為極其複雜和耗時讓用户捉襟見肘。面對這種情況,Lake House架構憑藉集中訪問控制與策略,輔以列與行層級的過濾等功能,帶來細粒度訪問控制與治理選項,能夠立足單一控制點對跨數據湖及專用數據存儲系統的訪問行為進行全面管理。
綜合來看,隨着基於數據驅動的智慧應用遍地開花,用户面臨的將是一個數據規模更加龐大、管理更加複雜的數據環境。面向未來,數據湖、數據倉庫以及專用分析引擎的協同運行會更加頻繁,智能湖倉架構必然會成為用户們的首選,而Amazon Lake House無疑將迎來更大的價值舞台。