死磕算力13年,阿里雲再一次破局_風聞
科技每日推送-有趣有温度,给你科技新鲜度2022-11-08 14:51
在金庸小説中,即使“屠龍”能號令天下,但唯有“倚天”能與之爭鋒。
阿里雲也有一把自己的“倚天”——倚天710,在去年的雲棲大會上正式出鞘亮相,驚豔眾人。
沒想到,僅過去短短1年時間,倚天710已實現大規模應用,再一次在業內掀起巨大的波瀾。

倚天出鞘一年,再迎新突破
11月3日,在2022 雲棲大會上,阿里正式宣佈,倚天710已成功大規模部署應用,成為中國首個雲上大規模應用的自研CPU。這標誌着,阿里佈局多年的“算力攻堅戰”再下一城。

倚天710,是一款通用服務器CPU,負責接收、運算和處理計算機內部所有信息,需要應對不同的應用場景,比如計算密集型、大容量存儲等,可以説是設計難度最高的芯片之一。
而平頭哥費這麼大勁搞出這個芯片,主要是想解決性能功耗等一系列問題,為雲上企業提供性價比更高的服務,這些都是讓他們頗為頭疼的問題。
比如説,功耗。
對於龐大的雲服務器而言,電費是日常運營成本的大頭,而決定電費的關鍵因素,又在於服務器運行的功耗。
倚天710,正是以低功耗為特點的ARM構架。為了實現性能與功耗兼得的目標,其特意在設計上也採用了多核互聯網、芯片間互聯等低功耗技術。
具體到應用場景中,無論是在數據庫、大數據、視頻編解碼,還是AI 推理,倚天710的性價比提升30%以上,單位算力功耗(耗電量)降低60%以上。
這些實例,既有阿里內部的,也有外部客户的。
在阿里集團內部,倚天710從去年就開始支持最核心的電商業務。在2021年雙11期間,天貓雙11核心交易系統就平滑遷移至倚天710實例。
外部客户就更多了,有研究機構、智能手機企業,還有知名互聯網公司。主打數據智能SaaS 工具生態的匯量科技就表示,在廣告推理中使用倚天 710 實例後,不僅有效提升了CPU 處理能力和網絡帶寬,成本對比傳統實例也降低15-20%,綜合性價比提升 40% 以上。
阿里雲智能總裁張建鋒在大會上提出,未來,阿里雲還將繼續擴大自研CPU的部署規模,預計未來兩年內20%新增算力,將使用自研CPU芯片倚天710。

今年,阿里雲還發布了一款雲基礎設施處理器CIPU,替代CPU來管理和加速計算、存儲和網絡資源。
這是一種全新的架構方式,代表着雲計算深入到數據中心內部做體系化創新。
CIPU實現了全面專用硬件加速的高性能,包括高帶寬、高吞吐和彈性RDMA的能力。
“飛天+CIPU”的組合性能表現普遍優於業內同類產品,性能可提升20%以上。

張建鋒認為,過去十多年,飛天為阿里雲打下了紮實的技術基礎,讓雲實現了第一次飛躍。自研CPU芯片倚天710、下一代雲計算體系架構CIPU,將為阿里雲構建第二技術曲線,是雲面向下一代技術構建的核心競爭力。

阿里的算力攻堅三板斧
阿里的這場算力攻堅戰,源於互聯網紅利爆發前夜,業務規模激增與陳舊的算力基礎,完全割裂。
2008年,淘寶流量指數級擴張,原本通過線下自建或租用服務器的方式,已經難以承受互聯網業務規模激增帶來的算力問題。想要接軌更廣闊的市場,提升算力是基礎。
於是,阿里開始尋求新的路子,想基於雲計算搭建全新技術架構,打破" 擴大采購規模 " 的線性侷限。
2009年,阿里巴巴啓動飛天雲操作系統的研發,併成立阿里雲,開始了中國企業自研雲計算的道路。
" 飛天 " 的核心目標之一,就是要用分佈式架構替換中心化架構,可以讓全世界服務器實現連接,不僅能快速應對突增的流量,還能讓計算資源真正像水電一樣,即需即用。
然而,分佈式系統非常複雜,一旦接入的服務器數量升至一定數量,系統性能、穩定性和運維等方面帶來的技術挑戰,那是指數級上升。

2013年5月,阿里雲完成新一輪突破,成為全球首個實現單一集羣5000台服務器規模的雲廠商;數月後,規模翻了一番,突破單集羣10000台的規模。
這時候,硬件上的難題又來了。無論雲廠商們如何優化,始終無法全然發揮硬件性能,虛擬化導致的性能耗損難以解決,只能眼睜睜看着算力白白流失。
這時候,阿里雲又開始琢磨着如何打造一個專用硬件,負責芯片不擅長的虛擬化調度工作。於是,兼具虛擬機彈性和物理機高性能的神龍架構又誕生了,讓雲計算進入性能0損耗的時代。
漫長的算力攻堅路途,沒有終點。
作為服務器、數據中心的 " 拼圖",芯片的問題又來了。芯片製造商所產出的服務器芯片,並不能很好地與雲廠商各自的技術架構相融,只能滿足最基礎的算力要求,很難提高特定業務及場景的性能。
達摩院、平頭哥,順勢而生。
在2019年雲棲大會上,成立僅僅一年的平頭哥,發佈阿里第一顆芯片含光 800。
2年後,還是在雲棲大會上,倚天710正式亮相,震動業內,性能跑分領先,能效比更是領跑全行業,現在又以迅雷不及掩耳之勢,實現了大規模應用。

如今,達摩院做基礎研究,為技術的發展源源不斷的提供科研成果、輸送人才;平頭哥利用阿里強大的研發能力和資源,支撐通用芯片這種高尖科技的持續研發;阿里雲則為這些產品提供了廣闊的應用場景。
三駕齊驅,阿里雲正在往“阿里雲+平頭哥+達摩院”的核心技術棧方向發展。

讓軟件開發不再是程序員的專利
雲計算架構發生翻天覆地的變化,必然會帶動軟件體系的改變。
在今年的雲棲大會上,張建鋒還提到,以云為核心的新型計算體系正在形成,軟件研發範式正在發生新的變革,Serverless是其中最重要的趨勢之一。

Serverless,翻譯過來就是,無服務器運算。
不過,Serverless化並非不用服務器,只是將服務器全權託管給了雲廠商,用雲服務器替代物理服務器。
Serverless架構,能降低軟件開發門檻,提供更多的預製模塊,大幅提高軟件生產效率,這將帶來軟件開發方式的深刻變化。

最早試水Serverless的新零售代表,聯華華商技術負責人樓傑表示,“以前搞大促我們技術團隊都睡不着覺,要時刻盯着服務器水位,心裏都沒譜。”
現在,“我們不用管理服務器這些基礎設施,只要編寫代碼上傳,函數計算就會準備好計算資源,水位遠遠高於我們儲備能力的極限。”
世紀聯華將會員系統、交易系統、支付系統等,遷移到阿里雲函數計算上處理後,促銷準備時間從周級縮短到小時級,研發運維提效30%,成本下降40%,真正把促銷活動變成常態。

而流媒體平台南瓜電影,曾因為一場熱映電影1小時內增加了100萬用户,是當時日常流量的5倍以上,就如國慶高速大堵車一般,流量暴漲引發網站服務一度中斷,臨時雲上擴容也無法及時滿足巨大的流量。
瞭解到Serverless的優勢後,南瓜電影也將系統部署到阿里雲Serverless應用引擎SAE上,7天時間就完成了新架構的升級和部署,總成本下降40%,運維效率提升10倍,從容應對突發流量。
低代碼將進一步降低應用開發門檻,張建鋒認為,未來80%的應用將由業務人員開發,不懂低代碼就和20年前不會用Word一樣。
目前,阿里雲擁有超過20款 Serverless產品,包括函數計算FC、Serverless 應用引擎SAE、Serverless容器服務ASK、PolarDB數據庫、AnalyticDB數倉等。
其中,函數計算日調用次數超過200億次,有效支撐歷年雙11百萬QPS洪峯,業務年均增速超300%,整體規模位居國內首位。

阿里雲的技術雄心
攻堅算力十數年,阿里雲披荊斬棘,閃電般拿下一座又一座城池,早已通過在雲基礎設施和雲原生技術上的積累,變成一片賦能創新的肥沃土壤。

如今“雲、摩、頭”組合三位一體,技術融合打通之後的一系列成果,也是其厚積薄發之後的結果。
向下紮根,做深基礎,向上生長,賦能應用,阿里雲已經抓住了未來十年的發展脈絡。
****•END•