上雲十年:阿里雲的奇幻漂流_風聞
脑极体-脑极体官方账号-从技术协同到产业革命,从智能密钥到已知尽头2019-11-12 23:17
現代人的生活是不缺乏刺激的。我們總能在電影院或化身“沙發土豆”,作為旁觀者,與鳳凰社、夜魔俠、蜘蛛俠等諸多主角們經歷了一場場“安全的冒險”,體會他們掙脱束縛的破釜沉舟,欣賞他們踏上未知冒險的勇氣。
回到真實的商業故事中,很少有人會將阿里與“困境”這樣的字眼聯繫在一起,尤其是在花團錦簇、全民狂歡的雙十一之後。
但少有人知道,這場剁手黨的“春晚”,卻是技術人眼中冰峯林立、人跡罕至的“珠穆朗瑪峯”。而阿里雲的工程師們,剛剛經歷過一場大汗淋漓的搏鬥。
極致雙11:阿里雲的技術攀爬
11月11日0點,阿里雲的數據顯示,雙11訂單創建峯值達到了54.4萬筆/秒。這個“數據海拔”有多恐怖呢?
面對這個全球最大規模的流量洪峯,就連在商海身經百戰的阿里巴巴CEO張勇,都有點“上頭”。
當天他坦誠道,自己心裏最關心的,不是銷售數字,而是整個技術的峯值。“我們能夠每秒鐘支撐多少筆訂單的處理,既不發生錢的錯誤,又不發生錯誤的庫存,被錯誤地記錄,這個才能保證整個商業順暢運轉。”
而這些沉甸甸的指標,被百分之百地押注在了阿里雲上。就在兩個月前,阿里巴巴將數以十萬計的物理服務器從線下數據中心遷移到了雲端。
雙11核心系統全部雲化,意味着什麼?
意味着,當有客户問起,“你們阿里巴巴自己的業務也跑在阿里雲上嗎??”“沒錯,全部都在,包括雙11”——阿里雲終於可以這樣回答了。
意味着在中國鮮少能搶到“首發權”的技術高嶺地帶,亞馬遜、微軟、谷歌等雲計算巨頭都沒能實現的壯舉, “飛天”首次實現了!
而從100%依託海外廠商(數據系統),到100%的自研雲,“飛天”這艘鉅艦航行了整整十年。
它是如何在充滿危險與未知的商業大海中遠征,跨越一個個暗礁生存下去的,或許會是雙11之後,另一場人人都會極有代入感的大冒險。
使命召喚:少年阿里的“飛天”遠征
所有英雄電影的開頭,主角們總能憑藉一個神秘的召喚,打開人生試煉的序幕。
而阿里的雲計算遠征,開場並沒有那麼多玄幻和浪漫。它源於一筆錙銖必較的經濟賬——彼時阿里巴巴的IT架構,淘寶和支付寶等核心業務都架設在大量IBM小型機、Oracle數據庫,以及EMC、戴爾存儲設備之上。
一台“小機”要幾十萬到百萬人民幣,數據庫軟件費更高達數千萬,加上維護費和其他支出,普通人掰掰手指都能想到,阿里高速發展的背後,是駭然的算力成本。
有什麼具體影響呢?大概也就是錢嘩嘩地花出去了,消費者的用户體驗也沒能提升多少。
每天早上八九點鐘,阿里的CPU(中央處理器)的使用率會漲到98%。就像電腦內存佔用過多一樣,用户瀏覽、下單、付款等操作的流暢度總令人心驚膽戰。
阿里的流量還在以十倍二十倍的速度狂飆,就連IBM這些IT界的“金字招牌”,也從來沒有應對幾億人訪問規模的經驗。以後該怎麼辦?阿里只能自我救贖。
2008年9月,王堅從微軟出走,來到了西湖。此後,他最廣為人知的身份之一,不是阿里首席架構師,而是“忽悠馬雲的騙子”。因為,他篤定雲計算是未來。
馬雲並不懂技術,他沒聽懂王堅講的那些技術優勢,也不瞭解雲計算背後到底是什麼。但他聽懂了一點,不上雲,光是繼續買服務器就足以讓阿里破產。而這,也將是此後數年間中國絕大多數企業要面對的共同難題。
既然別無選擇,憑着一句“使命召喚”,王堅帶着從微軟過來的幾個舊部,和林晨曦緊趕慢趕才招兵買馬的“水手們”,從零開始,邁出了雲計算大冒險的第一步。
2008年10月,一艘載着中國雲之夢的船隻被定名為“飛天”,正式展開了風帆。
打開魔盒:“去IOE”,阿里雲迎擊的第一隻巨獸
我願意以《少年派的奇幻漂流》,來看待“飛天”的起航。
李安導演以派(π)這個無理數當做少年的名字,預示着人生旅途中即將遭遇的一切未知。這與“飛天”團隊當時的境況何其相似。他們都遙望着大洋彼岸的美麗新世界,但航程中勢必充滿了可能被挑戰、被拒絕、以及充滿未知的要素與技術規律。
茫茫大海,掌舵人必須要規劃航線。2009年9月,“阿里雲”以子公司的身份正式亮相,它接收了命運派送的第一個重大任務盒子,放出了“去IOE”這頭“巨獸”。
今天看來,這是個潘多拉魔盒,裏面裝着麻煩與幸福的種子,同樣也有着希望和力量。
所謂的“去IOE”,就是採用自主研發和替代性方案來重構阿里的數據系統,以擺脱過去對IBM小型機、Oracle數據庫和EMC2存儲設備這“三大件”的依賴。
勝利的獎賞將非常豐厚,一方面能幫助阿里巴巴節約非常可觀的運營成本;同時有望成為幫助眾多中小企業降低技術應用門檻的“基礎設施”。
但“巨獸”的鎧甲也同樣堅硬。“去IOE”,不僅要將傳統的集中式系統架構全部改為雲計算的分佈式架構,還要確保業務跑在上面,性能和穩定性能夠超越IOE。
除了自研技術本身相對稚嫩之外,當時的“飛天”團隊,手裏現成的武器只有兩把——一個是以開源軟件為基礎的數據計算系統“雲梯1”,和以“飛天”為基礎、完全自研雲計算系統的“雲梯2”。
兩套系統都需要內部測試。林晨曦先找了淘寶技術團隊,拼命“賣安利”。負責人同意了,但底下的Oracle 工程師一聽就急眼了——這豈不是砸自家兄弟的飯碗嗎?!
差點引發人員動盪的“內部試用”,最終在各方的講事實擺道理前得以順利開展。但拆掉了傳統的IOE,自研架構就真能頂上了嗎?
恐怕連王堅都不敢打包票。
“明明可以坐高鐵,卻偏偏要騎自行車去上海”——這是當時阿里內部工程師們對“飛天”的普遍看法。
被強行趕鴨子上架的,恰恰是最“趕時間”的阿里金融。馬雲親自跟時任阿里金融的胡曉明下了任務書——必須將系統架構搭建在阿里雲上。
穩定性要求極其嚴格的金融系統,如何與初生的“飛天”(Apsara)平台融合,打造一個“去IOE樣板”?“牧羊犬”計劃就這樣誕生了。
中間有許多“打怪”的有趣細節,堪稱技術界的“吐槽大會”:比如問題層出不窮,系統總愛出錯,“分佈式計算”也被調侃為“分步試計算”。又比如工程師必須24小時緊盯着系統,“人肉雲計算”由此得名。
戲謔的背後,是阿里雲的“至暗時刻”。不少集團員工質疑這個業績常年墊底的子公司為何還要繼續存在,許多“飛天”戰友也在長久的攻堅戰前倒下,出逃的出逃、轉崗的轉崗,2012年的阿里雲“共創會”上,王堅甚至摔了話筒。
好在故事的結尾,以喜劇收場。
在一次較大的升級之後,“飛天”系統穩定得“不像是阿里雲的作品”。2012年底,王堅將“飛天獎”頒給了阿里雲的全體員工,頒獎詞是——堅持就是偉大。
這一堅持,就堅持到國內雲市場爆發,阿里雲成為數萬個網站、遊戲和應用的承載者,“去IOE”這隻歷史的大boss也最終倒下。2013年5月,阿里最後一台小型機下線。7月,淘寶最後一個Oracle數據庫下線。
這場戰役中,“飛天”和阿里雲奇蹟似的活了下來。
由一入多:阿里巴巴的集體“登月”
剛推倒boss的興奮沒有持續多久,阿里雲的探險家們又刷新出了一張刺激無比的“新地圖”。
2013年,正式完成“去IOE”運動的阿里雲意氣風發。但記性好的同學一定還記得,前面我們提到的阿里雲“兩板斧”——基於開源Hadoop的雲梯1和基於飛天的雲梯2(此時已經改叫ODPS)。
在墾荒階段,左右開弓是個不錯的選擇。不過3012年了,也是時候搞搞“精細化”運營了。不然兩邊分別投入,家大業大也經不起這麼造啊。
選A還是選B,成為阿里技術的關鍵選擇。答案大家已經知道了,那就是——自主可控的飛天。
經過研發團隊數月的優化和開發,ODPS順利實現5K升級,也就是5000台規模集羣投入運營,這項技術究竟有多厲害呢?在當時,創造了計算100TB排序只需30分鐘的新世界紀錄。
與此同時,“雲梯1”也逐漸向ODPS遷移。於是到了2013年底,更加強大的“飛天”和ODPS服務正式一統江山,並開啓了自己的新徵程——登月計劃。
以“登月”來形容其難度,並不誇張。因為任務目標——用“飛天”系統打通阿里巴巴和小微金服的所有事業部,讓流淌在各個業務中的數據實現“大一統”,當時即便是Amazon和google都沒有在自家的業務集羣中實現。
如果我們用真實世界中的方式來拆解這個項目,會發現它分為三個步驟:
首先,統一化數據平台。“登月計劃”設計搜索、廣告、物流等多個數據源必須先實現系統化的統一;
其次,將其送上當時算力領域的“土星五號火箭”——ODPS。
最後,各個業務組件需要在極高的相對運動速度中,被無縫銜接,實現平穩着陸。
內部的遷移固然困難,但水滴石穿,最終完成了這個壯舉。到2014年的時候,阿里雲不僅承載着阿里巴巴集團自身的諸多線上業務,還正式將ODPS開放,並進軍國際,與亞馬遜AWS在海外雲計算市場狹路相逢。
要馴服這頭名為商業的“猛虎”,就需要新的秘密武器了。
以虎為鄰:佈道者的AI試煉之路
如果要給2015-2017這三年想一個關鍵詞,答案可能是AI。而云,成為阿里向產業輸送智能的最佳管道。它的效力,在這三年間展現的淋漓盡致。
站在2015年的開端,當時已經躋身雲計算前列的阿里雲,面對一個兩難的選擇:一是“飛天”要俯下身去,擁抱廣大中小微企業用户;二是阿里雲要仰起頭來,與全球雲計算巨頭一起衝擊天頂技術。
但如何擁抱?天頂在哪兒?
要知道,在服務公有云和私有云用户的過程中,阿里雲的數據規則和計算能力在持續優化。2015年1月,12306網站將春運高峯的75%餘票查詢業務切換到了阿里雲上;10月,阿里雲又用不到7分鐘(377秒)的時間,完成了100TB的數據排序競賽。
阿里雲“飛天”分佈式計算系統的性能與可靠性,已經毋庸置疑。接下來去往哪裏?AI,就在這時登場了。
2015年的時候, AI能做什麼、會改變什麼,產業端一臉蒙圈。直到2016年4月,阿里雲在年會上展示了實時語音識別技術,並現場戰勝了世界速記大賽亞軍得主姜毅,這是阿里雲人工智能ET的前身,也是阿里AI的起點。
2019年的雲棲大會上,一張阿里雲的技術圖譜震驚了現場的所有人。從AI芯片含光800,到“飛天”AI平台,再到各種垂直智能應用模塊,軟硬件、雲端芯,想要哪裏點哪裏。然而當我們將時間倒回到三年前,會發現當時的阿里AI是如此稚嫩,又震驚於它成長的如此快速。
2016年8月9日的雲棲大會,阿里雲只推出了一款AI——人工智能ET。它的技能也遠沒有現在豐富,模仿馬雲説話、圖像識別、交通預測等,今天看來顯得有些原始,在當時卻迅速激活了產業對AI的價值想象。
原來除了無人車、阿爾法狗,AI還能幫助城市治堵、農場養豬、工廠升級?2016年9月,ET城市大腦落户杭州蕭山,將道路車輛通行速度平均提升了3-5%,雲服務的邊界迅速浦沿。
次年,阿里雲ET更是勢不可擋,一口氣搞出了工業大腦、醫療大腦、環境大腦,將AI的觸角深入到了許多“重產業”。
阿里雲拓展了AI的邊界,AI也改變着雲服務的商業模式。非網絡客户的信息化能力相對較弱,能否把各種算法打包成現成的模型和解決方案?軟件好用,硬件該怎麼鋪,如何節省成本?小微商户也想上雲,更加微量級的按需購買能不能實現?
眾多新的問題襲來,專注“吃軟飯”的阿里雲必須向更高的科技樹繼續攀爬了。那些等待點亮的技術名詞,有量子計算、芯片技術、嵌入式系統等等。
馴服商業與技術這兩頭猛虎的過程中,阿里雲也逐步成為了阿里巴巴征戰智能時代的最大希望。
中場對決:勇者和神龍的“虛擬化”故事
故事講到這裏,大家似乎可以發現,“阿里雲”這位主角總能在危與機之間順利逃出生天,似乎並沒有遇到什麼“極限挑戰”——這很不英雄。
放心,“絕境”可能會遲到,但絕不會缺席。鑄造了阿里巴巴集團商業神話的“雙十一”,也是阿里雲的“絕望時刻”。
作為全球僅此一家有資格挑戰這種極限場景的平台,雙11之於阿里雲,就像少年派所途徑的島嶼,它是如此壯闊而美麗,各種奇幻的水下生物游來逛去,靜謐的大海與夜空的繁星交相輝映,派的小船如同停靠在一個美好的夢裏。
不過,夢裏可沒有宕機。
要把危機四伏的雙十一練兵場,變成自己的高光舞台,而不是打臉現場,真的有點困難。
等等!前面説好的全集團業務上雲呢,怎麼還遺漏了個雙11,難道阿里“登月”也成歷史懸案了?!
沒錯,天貓和淘寶兩位“阿里印鈔機”,説不上就不上。
不怪它們太“作精”,儘管2016年的時候,阿里雲的底層虛擬化技術,已經可以實現極端場景下10%的性能損耗。但對於電商業務,尤其是雙11來説,這依然是不可接受的。
10%意味着什麼?就是雙11的20億預算,白白損失了2億,有這點錢捐給我(劃掉)給用户發紅包不好嗎?
“能不能把虛擬化的損耗降到0?”——2016年雙11結束後,阿里巴巴CTO行癲在覆盤會上一錘定音。
這意味着他們要解決至少三個問題:1.在虛擬層達到和物理機一樣的性能;2.滿足用户靈活部署的需求;3.虛擬化的同時保證硬件隔離與安全。
同時具備物理機和虛擬機的雙重優勢,這可能嗎?2017年雲棲大會上,阿里雲突然就召喚出了“神龍”這頭“性能怪獸”。
“變態”如阿里雲,終於從馴龍走向了造龍。他們為這條龍搭建了全新的骨架,採用裸金屬的虛擬化,設計了專用的芯片、主板以及MOC卡,調度性能更高的虛擬化中間層,再注入配套的整套軟件,“神龍”就這樣上天了。
“奶爸們”也毫不留情,讓這條剛出生兩個月的“奶龍”正面迎上了雙11的狂風暴雨。2017年,天貓雙11正式登上公有云,“神龍”完成了絕無僅有的一次巔峯壓力測試,實現了每秒32.5萬筆交易峯值,每秒25.6萬筆支付峯值。
養成之路就此開啓。為了讓損耗無限接近0,工程師們需要挑戰的是將原本虛擬化切分時所消耗的計算也塞進MOC卡里。得,又得繼續搞新硬件了。
所以到了2018年,神龍2.0有了更強大的虛擬化算力。單挑雙11不在話下,眼看“神龍”的日子剛剛過的有點滋潤,行癲又不樂意了。
2019年春節剛過,他給“奶爸們”下了新的任務——全集團不再購進一台物理機,今年雙11,讓這條龍把全集團的算力撐起來。
龍生艱難,工程師們不得不對其進行了極致改造——神龍芯片IO加速,彈性計算平台架構,軟硬一體化的安全防護,最終當第三代神龍與我們見面時,它已經接近於“龍生巔峯”——不僅損耗接近零,性能還比上一代提升了5倍。
不能下單、網絡崩潰、支付卡頓等情況,再也沒有出現在雙11現場,背後最大的支撐,就是來自技術的洪荒之力。
伴隨着“神龍”將雙11挑落馬下,至此毫不誇張的説,阿里雲已經成為阿里巴巴集團名副其實的產業基柱。
十年阿里雲:英雄歸來與再出發
英雄的歷險,至此,達到了一個短暫的尾聲。
阿里雲這羣“技術宅”,似乎非常青睞神話所傳達的浪漫情懷,從他們為飛天內部模塊的命名就能看出來:阿里雲的操作系統叫“飛天”,存儲系統叫“盤古”,調度系統是“伏羲”,而網絡通訊則是追日“夸父”。
而我覺得他們更像是童話故事中遠方的少年,當他們拿到地下魔鬼城中的寶物、龍怪寶庫中的金子、巨人看守的金羊毛,未來還將走向新的探險。
十年,對於阿里雲來説作為“成年禮”還有些早,但鍛造它的此間少年們已經經歷了各種考驗,征服了雙11的洪流(但謀殺了我們的錢包),以無名英雄的身份,現實歸來。
從一窮二白到核心系統100%上雲,這一刻的到來,也意味着阿里雲有能力去應對商業世界任何複雜的技術挑戰。
在觀看英雄電影時,我們總是青睞那些面對困境死磕到底的人設,虛幻的故事儘管生動,卻始終缺少代入感。但阿里雲這羣少年們的奇幻漂流卻不同,因為有上億人,都在跟他們一起冒險,並且快樂歸來。這背後的時代意藴,是更具生命力的都市神話。