阿里技術保障部:阿里雲的幕後英雄
阿里集團上市前夕公佈的最新27名合夥人名單中,出現了公司副總裁、技術保障部負責人劉振飛的名字。這當然既是對他個人的認可,也是對阿里技術保障部這一幕後英雄團隊貢獻的肯定。阿里集團包括阿里雲、天貓、淘寶、支付寶、小貸在內的各項業務,以及近幾年雙十一、飛天5K等諸多奇蹟的背後,這個團隊都發揮了關鍵性的基礎支撐作用。
然而,不僅外界聽説過阿里技術保障部的人不多,就連我雖然與劉振飛已經相識多年,對他們團隊的具體情況以及與阿里雲的淵源也只是一知半解。近日我終於找到一個機會,在杭州和他好好聊了一上午。
阿里技術保障部的故事,要從2009年8月説起。今天的用户可能難以想象,當時淘寶網非常不穩定,動不動就訪問不了,或者要停機維護,搞得領導們很生氣很無奈。以至於當時淘寶的總裁陸兆禧感慨,淘寶2008年全年成交額是999.6億,要是少宕幾次機,就過千億了啊。劉振飛説:“你想,當一個公司的CEO天天在琢磨這種事,就説明技術平台上真是出大問題了。”9月25日,為了解決淘寶系統的問題,成立淘寶技術保障部,將阿里媽媽和淘寶的運維、數據庫等工作和團隊合併,當時正在北京負責淘寶廣告(阿里媽媽)技術團隊的劉振飛被領導點將,負責組建這支團隊。
劉振飛搬到杭州真正進入角色,已經到了2009年的11月2日,此後很長時間內,他和團隊都處於救火隊的狀態,幾乎每天大概都要處理幾十起緊急情況。但更大的挑戰卻是阿里媽媽和淘寶兩個運維團隊的合併並不那麼順利。“你要知道是兩套體系,兩套人合起來,人的觀念不一樣,大家經歷不一樣,習慣不一樣,工具不一樣,什麼都不一樣。合起來真是非常痛苦的過程。”劉振飛甚至誇張地説這一經歷給自己留下了不小的心理陰影。
而每年的雙十一對劉振飛團隊的成長幫助巨大。2009年第一個雙十一銷售額只有5000萬,對系統影響不大,連劉振飛也是在活動要結束前半小時收到淘寶商城負責人逍遙子(張勇)的郵件才知道的。一年後的第二個雙十一卻是淘寶技術保障部經歷的一次大挑戰。由於業務部門事先估算的成交量2.5億偏低(實際達到了9.36億),系統準備不足,整個活動期間都如履薄冰,走在崩潰的邊緣,曾經一度就要實施降級方案,限制部分寶貝圖片的顯示了。所幸,最後系統經受住了考驗。2011年劉振飛決定不再盲從業務部門的預估,而是從技術角度做足準備。這一年還創立了由各部門技術骨幹組成技術保障總指揮部、預先大規模壓力測試、大量演習和詳細的應急預案等流程和機制,很好地保證了總銷售額從不到10億到52億、191億和362億的逐年飛躍。
2011年還有兩件事兒至關重要。一是6月淘寶一分為四,除淘寶網、淘寶商城(後改名天貓)、一淘三個業務部門外,還有一個不太為外界注意到的阿里技術與公共服務共享平台。對此,劉振飛分析,當時的拆分可能是馬雲和王堅等集團高層想將公司技術底層統一起來,貫徹One Company戰略的開始。後來,這個共享平台的技術部分改名為阿里集團技術保障部。
另一件事是劉振飛團隊與阿里雲運維的合併。由於上次合併的痛苦回憶,加上當時公司內外對阿里雲有很多爭議,劉振飛對這事起初並不積極,拖過了雙十一之後,又有雙十二,眼見着就往春節後拖了。可是阿里雲的運維負責人道夫很主動,而且提出了很具體的方案,他的那句“這方案你聽完以後,你愛怎麼合怎麼合”感動了劉振飛。雙方很快達成了一致,合併總體也非常順利。技術保障部發展到今天,涵蓋業務運營(包括合作創新、標準化和知識產權),性能與容量(架構、性能、容量、優化),系統研發(網絡平台、網絡產品、SDN、服務器研發、無線技術、數據引擎、算法平台等),供應鏈管理(ODM管理),數據庫(MySQL、OceanBase、SQLServer和RDS),平台與工具(工具、流程、監控、自動化、配置、研發協同平台、硬件管理平台),平安生產,系統運營和雲PE等多個方面,猛將如雲,而且同時具有運維的經驗和自主研發的實力。
劉振飛還透露了一個鮮為人知的細節,因為對阿里雲心裏沒底,在接手前他私下直接問過馬雲本人對阿里雲到底是什麼態度,我是全力去幹,還是説應付應付就完了。當時馬雲是這麼回答的:在王堅加入阿里之前,我跟教授(指曾鳴)討論公司的未來,覺得雲計算和大數據代表未來,對國家、民族、社會的發展有長遠的意義,所以我們要幹,這是第一點。但是怎麼做雲計算大數據?我們誰也不知道。現在來了個人叫王堅,他説我知道怎麼做,為什麼不支持呢?這是第二點。第三點,即使萬一做失敗了,那也沒關係,咱們的人倒下70%,還有30%活着,咱們活下來的人繼續打掃戰場,換個方向繼續幹,總要把它做出來。
有了老大的這種明確表態,劉振飛心裏清楚該怎麼做了。“雲計算是公司戰略,什麼叫戰略?戰略就是公司一定要幹,理解了執行,不理解你也要執行。”
接下來2012年的頭幾個月,他連續得罪了兩個人。一個是負責阿里金融的孫權(胡曉明)。他們是阿里雲的第一個重要內部客户。但是由於阿里雲的產品當時仍不太成熟,問題很多,孫權找到劉振飛,表示不想用阿里雲了,要改用淘寶的體系,讓技術保障部來支持。劉振飛本着雲計算是公司戰略的精神,拒絕了這一要求。同時,阿里雲和技術保障部專門抽調技術骨幹組成團隊,駐紮到濱江辦公區為阿里金融提供貼身服務。最終獲得了他們的認可。
下一個被得罪的,是時任淘寶副總裁的菲青(王文彬)。他為了上聚石塔項目(電商開放平台),來找劉振飛談技術保障方面的事情,也是不願意用阿里雲,要用淘寶技術體系,同樣吃了閉門羹。“我當時説如果用淘寶體系的話你自己找人去玩兒,要用雲計算,我全力頂你。我就是這樣非常粗暴地利用手中職權強迫大家往戰略方向上去走。”劉振飛笑着説。
2012年的雙十一,阿里雲支撐聚石塔完成全部訂單20%的處理,成為雲計算的一大亮點。集團外部也有CCTV5的網上直播、浙江颱風預警系統等出色的案例。
但阿里雲最終真正證明自己,還是2013年的事情。除了依靠阿里雲迅速成長為基金業土豪的餘額寶之外,飛天5K項目具有決定性的意義。
事後總結,飛天5K這個項目並非人為規劃而是逐步發展出來的,其中有幾個歷史節點很關鍵。第一個關鍵點就是去IOE,雖然去IOE最開始是王堅提出來的,但與雲計算沒有直接關係,可是做着做着就發現殊途同歸了。去IOE內部的爭議也非常大,但做到最後,大家發現這是一個有利於國計民生的大事。第二個關鍵點是2010年我們自己研發的海量關係數據庫OceanBase立項,現在已經成為整個公司的基礎數據庫,包括支付寶交易和賬務系統所用的Oracle,很多應用所用的MySQL,最終都會轉到OceanBase上。第三個關鍵點是2010年的雙十一,技術保障部的組織和雙十一的保障流程建立起來了。然後的關鍵節點就是飛天5K項目,之後內部通過登月計劃,正在爭先恐後地將原有的數據處理平台全部遷移到基於飛天5K的ODPS上。最先動手的登月一號是支付寶,已經完成了。接下來的關鍵點還有今年ODPS的對外發布,外部客户現在所用的基礎設施和內部支付寶、淘寶所用的,已經是完全一樣的了。
劉振飛説,更長遠地來看,5K這個項目將在阿里巴巴歷史上留下很重的一筆。在此之後,阿里技術團隊內部停止了爭論,原來做兩攤事兒不時競爭的人,兵合一處,並肩作戰。與之對應的,是阿里雲的口碑越來越好,網上能見到的吐槽也越來越少。馬雲後來説過一句話,他説飛天、ODPS和雲OS這三個東西,是我們阿里巴巴要重心打造的重武器或者核武器,這是我們的技術的核心,一定要搞好。
劉振飛透露,最近淘寶系的負責人也向他表示,已經在認真考慮核心系統上雲的問題了。內部對雲計算達成共識之後,劉振飛和阿里技術保障部基於幾年的實戰經驗,對雲計算本身和自己要承擔的責任與面臨的挑戰,做了全面思考。關於他們的思考結果和計劃,我們留給下一期。
劉振飛其人
劉振飛這個名字,可能外界並不太熟悉。其實,對於技術圈,尤其是《程序員》雜誌的老讀者和CSDN網站的資深網友來説,劉振飛並不陌生。他是河南魯山人,卻有點山東大漢的意思,個子很高,性格直率。1996年獲得北京大學碩士學位,C++程序員出身,曾在微軟Office組任程序經理。早在2004年,他就因BugFree這款開源軟件受到廣泛關注。2005年《程序員》雜誌從第1期開始連續三期刊出了對他的訪談《Bug管理的經驗與實踐》,第8、9期又連載了他撰寫的《網站項目成功管理實踐》。這一系列細論軟件和互聯網研發管理經驗的文章廣為流傳,產生了很大影響。2007年和2008年兩屆SD 2.0大會,劉振飛又成為演講嘉賓,這時他已經成為淘寶廣告團隊的技術總監。2009年,他受命組建淘寶技術保障部,後發展為整個阿里集團的基礎技術支撐部門。2014年成為阿里27名合夥人之一。