三問CIPU,阿里雲的葫蘆不賣“藥”_風聞
洞见新研社-洞见新研社官方账号-专注商业与科技,在没人思考的地方,再深思五分钟。2022-06-16 19:23
作者 | 魏啓揚
來源 | 洞見新研社

不久前結束的阿里雲峯會上,阿里雲釋放了一枚“重磅炸彈”,發佈了一款自研的雲數據中心專用處理器,這款處理器取名為CIPU(Cloud Infrastructure Processing Units 數據中心專用處理器)。
很多媒體都對CIPU的功能特點進行了非常詳盡的解讀,我們就不再贅述。
簡而言之,CIPU是一顆雲端處理器,向下接入物理的計算、存儲、網絡資源,快速雲化並進行硬件加速;向上接入飛天雲操作系統,管控阿里雲全球上百萬台服務器。

圖源:阿里雲官方
無論是阿里雲公佈的數據指標,還是業內專家的評價,都指向一個結論——CIPU很NB,它讓中國在爭取雲計算的定義權中,處在有利位置。
“阿里雲提出的CIPU技術,把上一代計算架構的中心完全打破了,在基礎技術上實現了世界領先,跟國際巨頭站在同一個起跑線上。”
——中國工程院院士鄭緯民
不就是一顆芯片嘛,CIPU到底有啥特殊,CIPU對於阿里,對於整個雲計算行業而言,又意味着什麼
01,已經有CPU了,為什麼還需要CIPU?
一般來説,驅動創新的力量有兩個,要麼是解決已有問題,要麼是創造新的機會。
CIPU誕生則是這兩股力量兼而有之。
我們先來看看雲計算發展到現在到底出了什麼問題。
阿里雲智能總裁張建鋒(花名:行癲)將雲計算過去十多年的發展總結成兩個階段:
第一階段是分佈式和虛擬化技術替代了大型機,滿足了當時企業因業務擴張而帶來的算力彈性需求;
第二階段出現了資源池化技術,通過把計算和存儲資源分離,然後再規模化編排和調度,形成了超大規模的計算和存儲資源池。
這兩個階段,CPU在雲計算體系架構中都是無可爭議的C位,可隨着以大數據應用為代表的數據密集型場景越來越多,海量數據在不同系統中搬運計算,CUP維持”C位”逐漸變得“力不從心”,這種以CPU為中心的傳統架構的短板也暴露出來了。
首先是慢。
在分佈式體系架構下,很多大型應用會分散在多個子系統中去部署,這就對各系統之間的延遲提出了很高的要求,此外,由於大數據應用的增長,數據中心內部數據的遷移流量也在增大,這對網絡帶寬又是一個挑戰。
其次是超大規模的複雜管理。
這裏既包含了雲計算超大規模基礎設施的硬件管理,也有云內部超大應用、複雜應用的管理。像阿里雲在全球27個國家和地區、84個可用區、2800個網絡節點,運營着上百萬台服務器,服務着全球400多萬客户,如此大的規模,其中的管理難度和成本超乎想象。
矛盾點在於,CPU最開始時並不是為了搭載雲操作系統而設計的,CPU的優勢是單核性能強,在指令性計算任務處理時,性能優異,但對數據處理並不擅長,數據吞吐能力弱,一旦遇到分佈式大數據系統就要消耗大量的資源用於數據搬運。
針對上述短板,英偉達和英特爾分別給出了DPU和IPU兩個解決方案。
DPU做的是集成加速平台,即對CPU部分功能進行卸載,優化,減輕CPU的負擔,側重解決數據遷移帶寬不夠用,速度“慢”的問題。
IPU強調虛擬化雲化能力,通過網絡虛擬化、存儲虛擬化、網絡存儲管理以及安全等功能,加速網絡基礎設施,釋放CPU核來提高應用程序性能,側重解決“超大規模複雜管理”的問題。
很明顯,無論是DPU還是IPU,都不是完美的解決方案,阿里雲已經是個成年人了,它不做選擇題,CIPU就是在這樣的背景下誕生了,既能雲化虛擬化管控數據中心,又能解決數據遷移帶寬的問題。
阿里雲官方公佈,基於CIPU和飛天雲計算架構體系,在通用計算、大數據、人工智能等核心場景的計算測試性能:
●在通用分佈式計算領域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%;
●高吞吐類的互聯網業務上雲之後,比自建物理機的集羣吞吐量提升了30%,業務高峯期延遲下降了90%;
●在大數據和AI等計算與數據雙密集場景下,相比傳統的TCP網絡,彈性RDMA高性能網絡的吞吐能力提升30%以上;
●雲原生方面,容器啓動速度快了350%,在Serverless 場景下6秒可拉起3000個彈性容器實例。
阿里雲在CIPU的研發過程中採用了“軟件定義+硬件加速”的思路,將其定位為飛天雲操作系統的專用處理器,如此一來,不但通過硬件提高性能解決雲計算發展中遇到的痛點,還能通過軟件提供靈活性,在系統、應用和資源的管理上大大加強。
02,雲廠商那麼多,為什麼是阿里雲發佈CIPU?
第二問題最直接的答案是阿里雲自身業務需求的驅動。
上文有提到,如今阿里雲的IDC規模已經極為龐大,在全球範圍內管理着上百萬台服務器,阿里雲遇到的問題肯定比99%的雲廠商都要多,加之行業內還沒有出現公認的“完美方案”,而阿里雲恰恰又有解決上述問題的能力,研發CIPU也就順理成章。
早在2016年,阿里巴巴內部就開始了技術長征,2017年發佈了一個叫“神龍卡”的設備,用來應對傳統CPU計算架構系統難以解決的問題,阿里雲後續還對“神龍卡”進行了多輪迭代,逐漸完善了編排調度、硬件加速等更多能力,以“神龍卡”為基礎,阿里雲又進行了一次從0到1的創新,即我們現在看到的CIPU。
事實上,在過去的幾年裏,CIPU已經承受過像“雙十一”、12306春運搶票這種體量的性能和壓力測試,甚至有一些阿里雲的客户提前“嚐鮮”,使用過基於CIPU的雲計算服務了,雖然用户層面對底層硬件層的感知不明顯,但阿里雲的工程師們心裏還是很清楚,“自己用過覺得好,才是真的好”。
在阿里雲自身業務的驅動之外,出於行業競爭的需求,也推動着阿里雲去做像CIPU這樣的創新。
比如亞馬遜AWS推出了Nitro方案,早在2017年時就想用Nitro系統來取代以CPU為核心的計算架構體系。
從技術原理來看,Nitro與CIPU類似,他們的區別在於,Nitro將硬件芯片和軟件系統集成到了一起,其外部形態就是一個盒子;而CIPU則由專用芯片和控制器構成,對接飛天操作系統,並對其進行管理。
張建峯在接受媒體專訪時表示,“雲計算越來越接近進入下一個時代了——全新的架構定義,全新的軟件界面,硬件加速。”
張建峯講述了雲計算行業當前的現狀,同時也暗喻着,在新一代主流雲計算架構沒有確定之前,這是一個難得的窗口機會,一個重新定義雲計算的機會。
舉個例子,一些做設計的用户在渲染時要用到很高的算力,於是會花很多成本用在配置電腦上,但如果用到雲電腦,就可以節省很大一塊前期投入,此外,用户的數據全在雲上,有加密、熔斷等保護機制,比存在本地硬盤還要安全很多。
此外在辦公、遊戲、娛樂等很多場景中,雲電腦也都有着自己的獨特優勢。
想象一下,當我們不再需要物理主機時,雲計算市場將會發生怎樣變化?
阿里雲發佈CIPU,努力構建新一代的雲計算架構體系,從表面上看是與AWS這樣的友商在技術層面的針鋒相對與**“明爭”,實則是關乎未來生存與發展的“暗鬥”**。
03,説得天花亂墜,CIPU能為阿里雲帶來什麼?
阿里雲在2022財年實現了成立13年來的首次年度盈利。
5月26日,阿里發佈的2022財年的業績報表披露,雲業務同比增長23%,全年收入在抵銷跨分部交易前和抵銷後分別為1001.8億元和745.68億元,並且實現了11.46億的盈利。
這只是阿里雲的一個新起點,阿里雲的野心遠遠不止於此。
此次阿里雲在發佈CIPU的同時,提出了**“Back to Basic”**戰略,要重新回到雲計算的本質。
如何理解?
對照着英特爾和微軟聯手的wintel聯盟,蘋果A系列芯片與IOS操作系統的組合,我們可以發現,就像鞋子要合腳一樣,硬件和軟件必須相互結合,才能讓系統性能達到最佳。
阿里雲過去在雲計算的軟件方面已經跑得足夠遠,足夠快。
2009年,阿里雲自研雲技術操作系統飛天團隊寫下第一行代碼,在飛天系統之下,阿里雲此後又陸續構建了網絡虛擬化洛神平台、計算虛擬化神龍平台、存儲虛擬化盤古平台三大核心組件,目前已經擁有了比較完備的軟件基礎設施,如今配上能協調各方能力的CIPU,阿里雲的追求的不再是計算系統性能的再上台階,而是雲計算下一輪技術主導權競爭的主動。
用張建峯的話來説,阿里雲是**“既要做英特爾,也要做IBM”**。
在Back to Basic戰略下,阿里雲實際上形成了兩個平台,一個是向用户提供大數據分析、AI等能力,滿足產業互聯網時代下用户的數字化轉型與創新方面的需求;另一個是阿里雲面向終端用户的“雲釘一體”與低代碼,為用户提供入口與快速開發的能力。
簡而言之,阿里雲要完成既能處理任務,也能處理數據的進化,不但能向用户提供資源,還能向用户提供能力。
過去基於分佈式系統,雲計算行業實際上建立的是一個可彈性售賣的系統,只要有能力做分佈式系統的廠商,都能邁進雲計算的大門,而如今隨着CIPU的誕生,新的計算體系架構下,雲服務的門檻實際上是被抬高了,於阿里雲而言,其競爭力進一步加強,亦是阿里雲在2020年提出的“做深基礎、做厚中台、做強生態、做好服務”戰略中“做深基礎”的延伸。
另外一個維度,如果站在雲計算發展史,亦或是新一輪全球科技競爭的大背景下,CIPU的發佈或許有更深刻的意義。
鄭緯民院士的評述是,“這是一件改變格局的事情,改變了原本由西方技術制定的遊戲規則,讓我國IT產業建立了全球領導力。”
最後總結一句,CIPU或許只是雲計算漫長髮展過程中的一小步,但一定能在中國雲計算發展史中佔據重要位置,同時也極有可能是阿里雲的與友商拉開差距的開始。