凌晨4點,一場頂尖科技巨頭的硬戰_風聞
深响-深响官方账号-全球视野,价值视角。2020-06-10 18:32
©深響原創 · 作者|劉亞瀾
01
“我們還是回滾到Oracle吧。”馬來西亞最大電商公司之一PrestoMall的數據工程師敲下這句話後,阿里雲架構師鄭旦和在吉隆坡、北京、杭州三地的同事們,面臨着3個月工作一夜歸零的險境。
2019年12月6日的凌晨4點,本該在0點啓動的數據庫遷移行動,推遲了4個小時。他們要將公司成立5年來的所有線上交易、線下分析報表數據從Oracle數據庫切換到阿里雲的數據庫PolarDB上。數據總量超過5T,類似5年時間不間斷,每秒300多筆記錄,所累積的數據量。
三個月前,PrestoMall分佈在印度、韓國、大馬的研發團隊,以及唯一一位數據庫工程師,都覺得這個想法太瘋狂了。5T數據的遷移絕不是小事,更何況數據庫涉及所有線上核心業務,而任何的數據差錯,都會帶來業務問題。而且他們新選的數據庫供應商來自阿里巴巴,後者旗下的Lazada 可是他們的競爭對手。
但PrestoMall還是做出了決定——上雲!
之前PrestoMall使用的32核Oracle數據庫,屢屢遇到問題,高峯時間段在線交易的瞬間激增、大量數據的持續存儲,讓業務隨時處於崩潰的邊緣。2019年12月,PrestoMall的Oracle許可證將到期,是否繼續沿用的問題,提前被提上議程。
如果切換上雲成功,PrestoMall預期可以節省90%的數據庫費用,相關的IT成本也有望下降40%。因此,在9月初,公司開始與東南亞市場上的數據庫供應商接觸。
權威機構Gartner報告顯示,微軟Azure、亞馬遜AWS、阿里雲Alibaba Cloud是雲數據庫份額前三廠商,因為都是A開頭,簡稱3A。作為亞洲增速最快的經濟體之一,東南亞市場是必爭之地。
從當地工程師的認知上講,微軟Azure總體品牌認知度最高,本身有SQLServer的長期積澱,亞馬遜AWS的Aurora是最早商用的雲數據庫,具有性能上的口碑,並且也脱胎於電商業務。
無論找誰,用雲數據庫替代Oracle等傳統數據庫都是勢在必行。
PrestoMall網站
阿里巴巴副總裁、達摩院數據庫首席科學家李飛飛是攻下市場的關鍵角色。
李飛飛曾經是猶他大學終身教授任、ACM傑出科學家,在數據庫領域擁有非常大的影響力,2018年李飛飛加入阿里巴巴,現任阿里雲數據庫負責人,花名:飛刀。
“今年要幫助1000家企業去O,10000套傳統數據倉庫上雲。”李飛飛在2020年6月9日對外公佈了一組數字。這個目標不是單方面的商業計劃,而是基於客户表達的強烈需求。李飛飛這一發言具有全球指標性意義。
“他的英語交流出色,在數據庫領域又有科學家和大公司團隊負責人雙重身份,客户很容易認可。”架構師西壁説,李飛飛花了大量時間,幫助東南亞銷售團隊與客户接觸。
阿里巴巴數據庫團隊很少坐下來向客户做長篇演説推廣。西壁認為他們的競爭優勢在於:“第一是場景,PolarDB已經支持雙11多年,秒殺、直播等場景也都是客户感興趣的;第二是直接讓客户到自己系統中試用,接受檢驗。”
根據PrestoMall的需求,9月末,阿里和其他廠商一起提交了“去O”的遷移方案以及兼容性評測報告。然而,評測結果是PolarDB產品由於採用分佈式架構,當時版本對Oracle數據兼容性相對低,以及價格還更高。
堅持採用分佈式架構,而不是隻照顧兼容性,是李飛飛加入數據庫團隊後,與各個骨幹達成的共識。因為這種架構能支持不同類型的數據庫,共同高效調用資源。當時,團隊剛剛快速從過去兼容MySQL的PolarDB數據庫產品中,抽出了一款針對Oracle客户快速切換的產品PolarDB-O。
當時,PolarDB-O尚在公測期,李飛飛竟然就要面向國際客户服務。鄭旦在阿里巴巴有7年數據庫架構師經驗,完成了多個事業部的“去O”;這個目標仍然讓她感到“太快了”——“當時,團隊剛剛改變建制,我突然就被拉到一個羣,説你去負責這個馬來西亞客户。”
東南亞項目容易“費力不討好”。語言、編程習慣、3A的瘋狂競爭、遠程成本……各種因素隨時都可能讓項目夭折。
為了最終遷移順利,鄭旦團隊和多個研發小組,甚至要計劃在上海完全模擬了一套復刻客户同體量的數據,模擬從Oracle遷移的每一個細微環節。
但由於評測報告並不佔優,接下來的工作只能提速。數據庫相關團隊整個國慶加班迭代,並派出多名成員前往馬來西亞。阿里雲智能總裁行癲曾經對內多次談到,核心技術大件放到國際上競爭,絕不能只靠“價格低”、“阿里出品”來吸引客户。
經過現場對未來場景的幾輪商談,阿里豐富的電商實踐檢驗,最終更有説服力。但無論鄭旦們,還是Prestomall的工程師們,仍然感覺到巨大的不確定性。
02
阿里雲數據庫團隊對東南亞市場並不陌生,心動網絡就是阿里雲服務的客户之一。在熱門的遊戲出海領域,心動網絡打造了遊戲社區TapTap,近幾年在海外的擴張勢頭也格外兇猛,《碧藍航線》《第五人格》等國內爆款遊戲均通過心動網絡與國外玩家見面。
一直以來,遊戲出海行業裏關注更多的是如何獲取海外流量、如何內容本地化,鮮少有人關注討論在線娛樂型流量的底層支撐與命門——數據庫和數據倉庫。前者支撐和記錄玩家的所有交互行為;後者則要將大數據實時提供給運營團隊數據洞察,便於做出及時的玩法和策略調整。
TapTap的全球化運營與交付模式,意味着他們需要有支撐各區域部署的“數字大腦”,而相互之間,又最好使用統一的大件模塊。
然而伴隨着業務的擴張,互聯網公司原有的大量MySQL數據庫面臨挑戰,數據備份慢、業務延遲大,遊戲發版前對數據備份動輒需要幾小時,非常影響發佈效率。心動網絡最早在東南亞市場使用了亞馬遜AWS Aurora。
隨着阿里雲自研的雲原生數據庫PolarDB在當地開設服務,心動網絡選擇了這一成本更低、性能更優、曾經扛住了雙11大規模高併發的夥伴。
從MySQL到AWS Aurora再到PolarDB,必須平衡數據庫遷移諸多細節、稍有差池後果不堪設想。為此,阿里雲有兩個重要的遷移工具保障這個過程,DTS用於數據的遷移、ADAM用於業務層相關的遷移。兩個產品對主流數據庫種類的支持規模,都是業內最高。
而另一家遊戲出海領頭羊莉莉絲,代表作包括《萬國覺醒》、《劍與遠征》,則在兩年前就開始利用阿里雲的雲原生數據倉庫AnalyticDB,幫助數據架構師和運營人員及時分析遊戲運行情況,及時調整策略。這個數據倉庫產品,也在2020年拿下TPC-DS性能榜全球第一的桂冠,代表着性能和性價比的巔峯水平。
《火炬之光》手遊將由心動網絡研發並在亞洲範圍內發行
互聯網數據處理和存儲場景越來越要求彈性、智能化。PrestoMall、心動網絡、莉莉絲冒着風險更換數據庫的選擇也並非個例。
相比之下,“去O”的趨勢雖然已經明朗,但趨勢歸趨勢,要從Oracle遷移數據的難度,其實大大複雜於其他開源數據庫。
鄭旦告訴「深響」,因為Oracle數據庫版本繁多,不同客户創建報表的邏輯差異很大,基於DTS和ADAM產品,PrestoMall項目需要改動的代碼不到5%,但仍然帶來不少升級優化需求。
03
數據庫的市場並不大,卻聚集了全球高科技巨頭核心的研發力量。
據不同的統計口徑,全球數據庫市場規模在300億美金到600億美金之間。相比於全球雲計算數千億美元級別的規模,這不算是最大的一塊肥肉。
但數據庫的戰略位置十分特殊,其承載了一個企業客户最核心的數據資產,而每一次遷移,都意味着相當的風險。數據庫的選擇,往往也也會影響企業對存儲、服務器等其他大件的消費,粘性高、撬動後續服務的能力強。
微軟、Oracle、SAP、亞馬遜AWS、Google、IBM、阿里巴巴、騰訊、華為……全球頂級科技巨頭在數據庫領域已經鏖戰了數十載,亞馬遜AWS的CTO Werner Vogels更是多次強調:“數據庫是雲計算的終極之戰(Real Battle)。”
如果要用雲數據庫取代傳統數據庫,這相當於將現有每年數據庫500億美元市場中,約70%的份額分流。按照行業預測增速,未來三年數據庫市場總銷售額約在1800億元。
從商業數據庫到開源數據庫、雲原生數據庫,從海外巨頭佔絕對主導地位到如今國內外頭部玩家在新賽道上同步起跑,當下的數據庫和十年前的數據庫已然不是同一個概念。
歷史上,最早的數據庫要追溯到20世紀70年代,1968年IBM推出了第一代數據庫DB1,1970年IBM工程師EdgarCodd寫下了最早的關係型數據模型構想的論文。隨後的30年間出現了Oracle、Informix、Sybase、Sybase與微軟合作的SQLServer等著名的數據庫公司。
全球數據庫產業在2000年前後進行了第一次大戰並主要形成IBM、微軟、Oracle三巨頭格局,那也是商業數據庫的時代。
2000年以後,互聯網和雲計算技術變革為數據庫技術帶來了“釜底抽薪”的底層計算系統變化,帶來了以開源、分佈式和雲計算為主導的新數據庫時代。
2018年10月,阿里雲第一次出現在Gartner全球數據庫魔力象限(包括傳統和雲數據庫市場份額)。第二年,阿里雲就成為最接近“領導者”象限的“挑戰者”,整個市場呈現7強格局:微軟、Oracle、SAP、AWS、Google、IBM和阿里雲。
歷史進程中的數據庫
在數據量很少的時候(百GB),傳統的數據庫如SQLServer、Oracel、DB2等可以完成大多數場景對數據管理的要求。但隨着數據越來越多、負載越來越高、對數據分析的需求開始出現,企業意識到了商業數據庫的侷限性。
這時候雲原生數據庫廠商開始把商業數據庫以及開源的數據庫搬到雲上,給客户以租用的方式提供服務。雲原生數據庫更是有目共睹——低成本、免部署運維、高性能、更安全,Gartner預測,到了2021年,雲數據庫在整個數據庫市場中的佔比將首次達到50%,而到了2023年,75%的數據庫都要跑在雲平台之上。
全球頂級科技公司的新一輪數據庫“世界大戰”圍繞於此。
Oracle和Microsoft原本以數據庫見長,在雲時代,兩家公司都在努力從私有環境部署向雲上轉型;AWS、Google和阿里雲則是在雲上取得了成功。逐漸地,抓住了“雲機會”的3A(AWS、Azure、阿里雲)和Oracle形成了新的頭部數據庫格局。
其中,阿里雲PolarDB系列數據庫,從2015年項目啓動,經過幾年天貓雙11的試煉,已經進入快速商業化軌道。也就在昨天,李飛飛向外宣佈,PolarDB系列已經成為增速最快的雲產品之一。
據「深響」瞭解,最近幾個月這個系列數據庫產品同比增速都超過300% 。
2019年Gartner數據庫魔力象限
04
而云數據庫的崛起,其實是整個互聯網場景變化與趨勢發展的縮影。
在2004年左右,阿里巴巴尚未涉足雲計算,這家“電商公司”當時還是數據庫的大買主。
“技術人員們花錢如流水,買得「IOE」(IBM的小型機、Oracle數據庫、EMC存儲設備)這三家的對口銷售年年升職。”據《淘寶技術這十年》中阿里巴巴技術人員的回憶,互聯網實在發展得太快,很快就超過了IOE的極限,哪怕花錢也無法解決問題。傳統數據庫本質上是單機系統,即便做了分庫分表,也無法改變單機系統的本質。
2007年左右,阿里B2B業務勢頭正盛,淘寶、支付寶也出現井噴式增長。反應遲鈍的傳統軟、硬件供應商拿不出解決方案,阿里巴巴需要“自救”。
2008年9月,王堅加盟阿里巴巴集團擔任首席架構師,也首次提出去IOE。但這一想法在當時被很多人認為是天方夜譚。據瞭解,在數據團隊整合的過程中,走了三個主管,剛提起來,一週不到就辭職了。
當電商業務邏輯變複雜以後,需要理解Oracle數據庫的技術實現,但無論是請Oracle專家到現場的時間還是成本都無法滿足業務要求,於是阿里巴巴從2012、2013年後就開始大規模使用、定製開源數據庫。
這是一個很有意思的現象。當今格局中頭部的AWS與阿里雲背後,都是電商基因的支撐。雙十一等超大規模場景,在世界範圍內來看都絕無僅有,這也給了中國電商企業登頂全球基礎軟件技術領導地位的機會。
在2019年雙11的交易中,PolarDB數據庫處理交易事件的峯值更是達到了8700萬次/秒。
李飛飛
2011年加入阿里的離哲,現任AnalyticDB等智能分析類數據庫業務負責人,幾乎見證了阿里數據庫各種業務應用和自研階段。
離哲告訴「深響」:“2012年的時候商家進貨很有挑戰。該進什麼樣的貨,黑色好賣還是白色好賣,商品起什麼標題……問題很多。我們怎麼幫商家解決這些問題?最終這些問題指向了一個數據分析和麪向未來的趨勢,所以我們開始嘗試用開源技術做這個功能。”
2013年,離哲團隊多次爭取,獲得了一個大數據項目,完全把數據的分析能力透傳給商家、廣告主,能讓他們去做精準營銷。
Gartner雲數據庫全球排行
從2014年開始,其數據分析能力走出了阿里巴巴。
第一個客户中信21世紀(也就是後來的阿里健康)面臨的問題上藥物條碼。藥的流通是個很大的問題,藥物真假溯源尤為重要。但如果整體“上雲”,這個數據量是極大的。
第二個客户線上打車的業務是實時的,除了處理業務數據,同時由於有紅包功能,整個數據分析還需要對抗薅羊毛的黑產和灰產。
日積月累,客户的數量越來越多。
“服務外部的時候我們發現很多行業,比如遊戲、税務,他們都面臨同樣的問題——當傳統數據量變大的時候怎麼用數據去賦能業務、用數據解決業務問題。例如遊戲行業裏大多數遊戲生命週期都很短,一般6-8個月,怎麼在短時間內做精準投放、快速引流並留存用户讓投入價值最大化。”離哲説。
AnalyticDB這類提供智能分析的數據倉庫,成為銜接客户數據和大數據分析能力的關鍵組件。而Gartner報告也指出,對於未來的數據工程師,數據運維工作量會下降30%,智能化的分析能力則會大幅提升。AnalyticDB在複雜查詢場景比傳統關係型數據庫快10倍以上。
不過,擁抱新的雲原生數據庫,並不是一件困難的事。國內第一位Oracle ACE及Oracle ACE總監,雲和恩墨創始人蓋國強在三年前就在積極推行雲原生框架。
蓋國強團隊是國內數據庫社區最頂尖的貢獻者之一,他歸納了數據庫行業的幾個重要趨勢:
分佈式。彈性伸縮,故障自愈。智能。智能優化,智能運維。平台化。用户可以自己去建所有東西,進行統一管理。軟硬一體。將所有東西集成在一起,讓用户能夠獲得極致的性能和便利。雲化融合。雲上和雲下越來越趨於統一。05
這是一個好時代。
作為雲技術的基礎設施,數據庫成為了新一輪全球科技競賽的必爭之地,也毫無疑問地是企業進一步數字化、走向更高效率的橋頭堡。
而云的彈性和雲的本質又讓我們有機會通過存儲計算分離重新定義數據庫。在這條賽道上,全球玩家都是同步起跑。中國巨大的人口基數帶來了足夠豐富的場景讓數據庫的性能能夠得到校驗,新基建所對應的數字化浪潮也正澎湃洶湧。
回到半年之前的那個凌晨,鄭旦團隊幾次進入艱難讀秒。
深層的原因,是傳統數據庫的架構限制,這顯示出變化的緊迫性。由於PrestoMall使用傳統數據庫架構非常簡單,並沒有分離處理實時交易和離線數據彙總的業務,晚間交易業務減少,但數據報表仍然在彙總。而一旦進入白天,線上交易量增加,遷移的難度提升可想而知。
好在一切順利。凌晨6:10,陪着當地客户負責人身邊的項目銷售人員帶來好消息,新的數據流可以完全接入PolarDB,除了最後的一些第三方海外郵件服務外,Oracle數據庫上其他服務全部接入到了PolarDB。
遷移結束後的12月,PrestoMall順利扛過了雙十二和聖誕兩場大促。幾個月間,PolarDB系列,又順利完成十幾個版本迭代,正在金融、電信、政務等數十個不同行業類型的客户中部署使用。
數據庫的硝煙從未消弭。放到更長的時間線裏,一切才剛剛開始。