雲計算:百年大計從頭算_風聞
秦朔朋友圈-秦朔朋友圈官方账号-2022-11-10 08:20

· 這是第4793篇原創首發文章 字數 6k+ ·
· 秦朔 | 文·

算力就是國力
“50多萬年前的關鍵詞是光明與黑暗,50多年前的關鍵詞是數字和模擬,今天的關鍵詞是在線與離線。”這是5年多前,我和阿里雲創始人王堅博士交流時他的觀點。
在線和離線,區別是什麼?
打個比方。就像走路,離線是路不知道誰在走。在線是,不管是誰走的每一步,路都會記下來,讓足跡變成數據。
舉個例子。離線時代,軟件公司開發的軟件裝在光盤裏,上市前的測試方法是,讓普通用户進入裝着單向玻璃的實驗室,通過攝像、問卷等記錄其行為,或者到用户辦公室,現場觀測他如何使用軟件。通過觀察、統計、分析,找到設計的缺陷,反覆修改,再發布。在線時代,無論軟件設計人員想了解什麼問題,都可以寫成代碼,通過網絡在用户使用時自動把相關數據蒐集好,傳回軟件公司。這樣不僅用户的反饋常態化了,且所有行為都是在真實場景中發生的。
頂尖高手總能把高深的東西講得簡明。當時王堅這樣向我描述“在線”——
“你的每一次點擊,每一次網上購物,每一次網頁遊覽,每一次鍵盤輸入,都已經在線;你的手機有運動傳感器,每一次上下晃動都被記錄在線,手機的GPS裝置讓你的位置變動成最新的在線數據;你的眼鏡也在線了,谷歌眼鏡的推出,意味着你看到的每一個畫面都將是在線社會的源頭;你的汽車也在線了,車裏內置的設備全天候連接着網絡;你客廳裏的電視機也在線了,你看電視時的所有面部表情、體温徵兆、眼球焦點,在不知不覺中被電視自帶的攝像頭傳回去,成為廣告投放反饋的數據之一;你的睡眠也在線了,只要將智能手環佩戴在身上,它就能監測你睡覺時到底有多投入以及入睡的時間。”
聽着他的描述,我立刻就明白了:由於信息、傳感、通信等技術的發展,一切都能在線,一切都靠計算,計算也在改變一切。
就像手機,以前只有通話能力,現在百事可為。因為其背後的計算能力比1969年人類首次登月時阿波羅11號安裝的導航計算機要強大百萬千萬倍;
就像汽車,以前強調“馬力”,今天比拼“算力”,因為汽車儼然已是四輪超級計算機。
既然一切力量都和算力相關聯,沒有強大的算力,在這個數據驅動的時代註定寸步難行。
算力就是國力。建設網絡強國和數字中國,本質就是建設算力強國。
2009年,憑着“雲計算將取代傳統IT設備,成為互聯網世界的底層設施”的理念,阿里雲成立。它致力於以在線公共服務的方式,提供安全、可靠的計算和數據處理能力,讓計算和人工智能成為普惠科技。現在阿里雲已是全球第三大雲服務商,並且是中國經濟、數字生活、社會治理的基礎設施之一。
人類的離線文明有5000年以上,在線文明只有不到20年,才剛剛開始。一切都在變化之中。
這兩天舉行的2022年雲棲大會上,阿里雲智能總裁張建鋒提出,雲計算正在重構整個IT軟硬件體系和終端世界,形成一個全新的計算體系,具體表現在3個方面:整個IT硬件體系的重構;軟件研發範式的深刻變革;雲和端加速融合,算力從端轉移上雲,未來萬物皆是計算機。

除了在2017年聽王堅講過雲計算,我還從來沒去過阿里雲採訪。但“全新的計算體系”這個概念吸引了我。我想弄清楚到底是什麼意思。
阿里雲的兩位技術大咖接待了我,一位是阿里雲高級研究員、阿里雲基礎事業部負責人蔣江偉,一位是阿里雲研究員、CIPU&神龍計算平台負責人蔣林泉。
要透徹理解雲計算,對我這樣的文科生不容易。希望本文能幫助眾多和我一樣的讀者,理解雲計算和它帶來的變化。

雲計算的關鍵,在於提升兩個效率
5年前王堅説,“今天的關鍵詞是在線與離線”。
5年後的關鍵詞是什麼?
我得到的答案是:“還是雲計算。而且我們越來越感到,雲計算是百年大計。”
我問:“我們無法想象沒有電的生活,無法想象沒有計算的生活,但云計算有電這麼重要嗎?”
回答:“電網出現前,很多企業自己發電,但現在幾乎所有企業接入電網就行了。這個比喻可能更貼近一些。原來一個企業為了獲取算力,要去買服務器,然後託管到數據中心。現在一個創業公司只要打開網站,一動鼠標,‘啪啪啪’點完,就會獲得服務器的服務,可以立即把代碼部署上去,整個過程從原來的幾個月縮短到現在的半小時。這樣,你獲取計算資源的效率就會大幅度提升。”

我問:“像我這樣的一般用户,似乎不用雲計算也沒什麼問題吧?”
回答:“你自己覺得沒有用雲計算,但你享受的很多服務,比如遊戲、電商、視頻會議、外賣等等,這些公司都把計算部署在雲上。你手機裏的照片也是存儲在雲上。更重要的是對整個國家來説,同一份算力資源,在雲計算和普通計算的條件下,它被利用的效率完全不一樣。雲計算環境中,你買了電腦、服務器、交換機等等,然後開展業務。假如半年後業務失敗,這些資源並不會報廢,而是提供給另一家企業使用。而在沒有云計算之前,無論企業還是政府,常見的做法就是投很多資金,然後服務器廠商把你訂購的服務器搬到機房,而大部分時間服務器都空着沒用,萬一企業失敗了,IT設備往往被當成廢品去賣。”
“**在某種意義上,國家與國家的競爭,本質是資源使用效率的競爭,就是你的每噸煤、每噸鐵礦石,能產出多少GDP。**雲計算也是一樣,一份算力能解決多少次的邏輯運行。亞馬遜、微軟、阿里雲,以及其他的雲,都在競爭。算力也是資源,也要購買,而且價格比煤、鐵礦石貴多了,因為它是高度知識化的集成。你希望煤有更高的燃燒值,芯片有更低的功耗,同理,雲計算也在追求更快、更強、更安全和更低能耗。”
我問:“所謂雲計算能帶來更高的效率,具體表現在哪裏呢?”
回答:“有兩個層面。第一個層面是商業模式,雲計算是集中化運營的,資源不會被浪費,A公司不用,可以給B公司。而原來,很多項目一失敗,服務器就丟在那裏,如果當廢品賣,二手服務器是很不值錢的。第二個層面,就是雲計算本身的技術能力問題。就像人們在政府服務窗口外排隊,雲計算每秒鐘處理一個人的需求,等於完成了一次邏輯。但如果算力的性能更好,也許每秒鐘可以處理1.5次。這就是雲計算技術比拼的關鍵,一份算力,能不能解決更多的問題?或者解決同樣的問題,能不能花的錢更少?”
我問:“那怎麼才能提高算力的效率呢?”
回答:“有兩個因素決定效率。第一個是CPU(中央處理器)決定的,因為你寫的代碼都是在CPU裏跑的。它跑得快還是慢?很關鍵。比如過去你在電腦上寫完一篇文章要保存,有些老電腦會滋滋響一陣,花幾秒種才能保存,但今天保存什麼你是沒感覺的,因為CPU很強大,算得非常快;第二個因素是I/O(輸入/輸出),比如做完一個表單,保存、提交、傳到網上,這就是I/O的工作。所以從根本上説,你的計算要更有效率,要麼是CPU的單位成本的算力比別人牛,要麼是單位I/O處理的成本比別人低,或者單位成本I/O的處理效率比別人高。本質就這兩件事。”

什麼是全新的計算體系?
我全神貫注地聽,他們儘可能通俗地講。到目前為止,我的腦子還是清楚的。
接下來就進入到了最重要的問題,全新的計算體系是什麼?
前面已經知道,CPU和IO決定運算效率。因此,提高CPU的性能,提高IO的性能,就成為唯二之路。
但問題在這裏,變得有些複雜。
“如果按傳統思維,一家芯片廠商的CPU最強,所以大家就買它的CPU,做服務器,或者希望造出和它PK的芯片。但今天是雲計算時代,很多企業已經習慣了不是自己買服務器、建機房,而是在雲平台上,點一下鼠標,獲取一台‘虛擬’的服務器,雲上的服務器。現在大部分CPU要賣給雲計算廠商。在全球,雲計算已經提供了超過一半的計算基礎設施,且比例還在上升。在北美,5年前亞馬遜的AWS就開始做自研芯片,AWS的芯片叫Graviton,其自研芯片的使用量已經佔到了一個很可觀的比例。”
這意味着什麼?意味着在雲時代,像PC時代芯片廠商獨霸天下的那種局面會終結,既然越來越多計算遷移到了雲上,雲服務商就會自研具有云特徵的CPU。
2017年,幾乎和亞馬遜同時,阿里雲也開始自研跟雲緊密結合的CPU,並在去年發佈了倚天710芯片,其算力性價比提升30%,單位算力功耗降低超過60%,這也是中國首個雲上大規模應用的自研CPU。
“現在的服務器長得就是一台框,裏面插兩個東西,有內存條,有風扇。但以後不一定是這樣。那時的服務器可能不是現在這樣一台一台的,而是一堵一堵的服務器牆, 上面可能是一個個格子,把CPU插上去,或者把不同的CPU都插進去,而且所有的運維動作全由機器人自動完成。”

如果説過去的阿里雲,本質還是用一套軟件(飛天雲計算操作系統),彈性化、虛擬化地調配龐大的計算資源。以倚天710芯片和今年6月發佈的CIPU(雲基礎設施處理器)為標誌,阿里雲正在進入硬件,重構硬件體系。
以CIPU為基礎,連接服務器的物理網絡可以實現傳輸能力的倍增,存算分離架構的數據中心,可以提供空前高速的雲盤訪問能力。CIPU還具有快速接入能力,能通過高效整合,將算力的虛擬化損耗(“虛擬税”)整合降至接近“0”的水平。
兩位技術大咖這樣解釋CIPU:“你已經知道,要讓代碼跑得快,一靠CPU,二靠I/O。CIPU其實就是一塊芯片,可以放到服務器裏,也可以抽離出來,讓很多服務器共同使用。它最大的作用是對I/O進行了變革。CPU就像抽水機的發動機,功率越高,抽水量越大;I/O就像水管,而CIPU是決定水管粗細的,可以在水管出口處進行加速。同樣的代碼,進行了I/O加速後,跑出來的性能會更快更強。”
阿里雲之所以要做CIPU這樣的硬件,也是現實的倒逼。
“雲計算的好處不言而喻,但要把幾十萬、上百萬台服務器連起來,變成一台超級計算機。會發現很多瓶頸都在I/O端,也就是這些服務器相互連接的部分。因為CPU擅長計算,但非常不擅長做I/O。而今天的計算有大量工作都需要I/O,絕大多數任務都要跨節點分佈式計算才能完成。如果在本地硬盤存一個文件,並不太涉及I/O,但你要存資料到網盤上,就涉及I/O了。單機時代可以以CPU為中心,所有邏輯都讓CPU控制。而云計算,要控制很多服務器以及後端的分佈式存儲一起協作工作,複雜度遠遠超出一個CPU的能力。所以我們要把協同管理的這部分責任從CPU挪走,將其‘卸載’到CIPU裏面,再通過CIPU的加速,讓I/O這個瓶頸變得暢通無阻。”
“一個文件包傳進來,原來的做法是經過CPU,用CPU去處理I/O。文件包在CPU和內存裏轉來轉去,要很久才能出去。CIPU芯片就是把在CPU裏轉來轉去的這些事情(邏輯)打包,變成一個單獨的芯片進行直通。以後,凡是CIPU更合適做的IO鏈路上的計算任務都由CIPU做,這樣CPU就空出來了,可以處理正常的、它善於處理的邏輯,整個程序就會跑得更快。打個比喻,原來是整列火車靠火車頭帶動,也就是CPU的算力,同時所有輪子的協作也靠CPU。而現在像高鐵,用CIPU來控制每一個輪子,各自獨立進行協同,這樣速度就上來了。”

至此,我大致明白了“全新的計算體系”的含義。
曾幾何時,IOE(IBM的小型機、Oracle數據庫、EMC存儲設備)是誰都不敢撼動的架構,但確實無法滿足阿里電商的需求,而且成本高得不可承受,於是阿里堅決進行了系統性的重構,“去IOE”,代之以在開源軟件基礎上開發的系統,用成本更加低廉的軟件MYSQL替代Oracle,用PC Server替代EMC2、IBM小型機,等等。
這一次,阿里雲也是要從基本架構上突破,它要將自己的飛天操作系統以軟件定義的方式從全部在CPU裏跑,到拆出一部分任務到自研的CIPU上跑。
根據在30多個場景中的測試,新架構的效果非常明顯。比如緩存的場景,各種互聯網業務都涉及到緩存,有一款開源的數據結構存儲系統叫Redis,在相同的CPU配置下,通過CIPU加速,其服務吞吐能力可以提升100%,性能翻番,讓這個場景的計算成本下降一半,延遲降低,應用體驗上升。
另一個例子,是通過CIPU的eRDMA能力,數據庫能實現多節點全局一致性讀的超高性能。這有什麼價值呢?舉例來説,電商經常會出現把客户的庫存超賣的問題,你得打電話給顧客,説我們超賣了,請你把訂單關掉。但有些顧客就是不同意,説我已經買成功了。比如,電商賣一個杯子,準備了100個,打折銷售,結果消息傳出,湧進幾十萬人來搶,而庫存只有100個。系統的要求非常嚴格,只能是一個人進來,扣掉他的庫存後,再放第二個人進來,以此類推,否則就會大亂。但這樣做,一個個人進來,效率很低,必須犧牲性能作為代價。而用CIPU對這段代碼加速後,還是一個個人進來,但效率可以提高5到20倍,大幅度降低了這個場景下的計算成本。
今天,阿里雲在雲上,更多地採用自研CPU+CIPU的完整計算體系架構解決方案,能全方位提升計算效率。
這注定是一條漫長的路,但這種旨在從根本上改變人們習以為常的計算架構的探索,讓我充滿敬意。

百年大計,到了一個關鍵時刻
阿里雲追求的全新計算體系,不僅發生在硬件上,也發生在軟件和終端商。
張建鋒説,新興的軟件開發方式正在崛起,軟件架構全面Serverless化(無服務器運算)是大趨勢;軟件開發也不再是程序員的專利,低代碼可以讓未來80%的應用由業務人員自己直接開發出來;未來所有軟件都將是AI化的,大模型開源將加速AI真正普及;在終端,由於雲端加速融合,讓終端突破了物理限制,不僅推動手機、電腦、汽車、音箱會變成計算機,未來萬物皆是計算機。
全新的計算體系帶給我們全新的想象,而且很多想象已經化為現實。
世紀聯華是最早試水Serverless的新零售代表,促銷準備時間從周級縮短到小時級,研發運維提效30%,成本下降40%,真正把促銷活動變成常態。
流媒體平台南瓜電影,在Serverless架構下,“雲上資源想彈多少彈多少,想什麼時候彈就什麼時候彈。”峯谷時按需自動縮容,總成本下降40%,運維效率提升10倍,從容應對突發流量。
廣西柳鋼冷軋廠退火車間的工人張亮,用10分鐘就在釘釘上開發了一個危險區域管理應用,只有那些有作業任務的人或設備點修人員,才能在掃臉後進入。

|柳鋼集團冷軋廠庫位工查看釘釘應用
四川省古藺縣皇華中學的鄉村數學老師彭龍,在釘釘上用低代碼開發出了43款軟件,最快1小時就能搭建一個應用,以極低成本搭起一所數字化校園。
專注於人機交互技術的產品公司Rokid,在推出的AR眼鏡中接入了阿里雲的“無影”架構,利用雲上算力,用户打開85克重量的眼鏡,就能在眼前的虛擬現實畫面中與人聊天、辦公,還能做3D渲染、大數據編程等複雜工作。(注:“無影”架構在本地沒有主機,也看不見電腦CPU和硬盤,所有硬件設備都集中在雲端的數據中心。)
小鵬汽車與阿里雲合作建成了中國最大的自動駕駛智算中心,將自動駕駛核心模型的訓練速度提升了約170倍。
……
世界正在迅速雲化,也必須雲化。
現在,很多企業和機構對雲計算的使用,還是作為一種彈性資源,腦子裏還是裝着“我有多少服務器”等資源概念。而未來的趨勢,一定是從購買資源到購買能力。其重要標誌就是“按量付費”。就像用電,過去自己買柴油、發電機,一次性買齊設備,自己去發電。但現在沒人這麼做了,因為電網更穩定、更便宜、更安全。
“這還需要時間。一些政府的採購清單裏還沒有云計算,只有服務器。他們還是要持有資產。而云計算天然的屬性就是你不需要持有資產,用多少,算多少,不用就換,讓給別人用。”
“但變化已經很快。以前做電商,都是買很多服務器,構建一個很複雜的分佈式系統,招募很多的工程師,給他們的薪酬和對他們的要求都很高。**而今天的新電商公司,他的IT就在雲上,用雲廠商的數據庫、緩存、消息系統等等,構建整個電商體系。他的思路是,我就用雲計算的服務好了,用户量上來時,你們應該去擴容,而不是要我去買更多服務器擴容。這是新一代創業者普遍的做法。**甚至有VC説,如果一家創業公司不選擇雲計算,絕對不能投資,因為他們還是很老的思維。這是一個趨勢。”
阿里雲的兩位技術大咖最後對我表達了這樣的意思:
**1、**阿里雲能成為中國雲計算的領頭羊,是整個計算體系和構建方式正在發生深刻變化,而這又是因為整個中國的計算基礎設施和互聯網在迅速發展。阿里雲是時代的產物,最早看到了趨勢,順勢而為,事半功倍。
**2、**未來的計算形式會有各種變化,但通過雲計算這一公共網絡服務客户的方式已經成為越來越多人的共識。一切都會數字化、智能化,將來當我們離開會議室,桌子自己會擦乾,椅子自己會擺好,黑板會自己擦掉,甚至一張紙也會智能化,把要點整理好傳給你。但所有這些動作都需要控制,都需要算力,都需要雲計算。這是一個持續演進的過程,我們還在初級階段。所謂“全新的計算體系”,也只是將第一階段的技術模式進行了效率提升。
**3、**雲計算是規模+技術,資金密集、知識密集、技術密集的產業,全球幾朵雲的競爭將是長期的。競爭的結果,事關國家的數字經濟未來。如果我們咬不住,跟不上,創新不了,不僅是自己的挫敗,也是對時代的辜負。
5年多前王堅對我説:“大部分人説的趨勢不是趨勢,只是時髦,就像浮油一樣是最容易撈出來的東西。而真正重要的是浮油下面的東西。”阿里雲起步後備嘗艱辛,屢受嘲諷,靠着死磕的精神走到今天。
**“雲計算不僅將改變IT產業,也會深刻改變人們的工作和公司經營方式。未來不懂代碼就和20年前不會用word一樣。”2022雲棲大會上,張建鋒説。**雲計算是百年大計,阿里雲,為了它所看到的趨勢與未來,再出發,從頭算。
我還不會低代碼,但我願意説:無論是從數字中國發展的角度,還是從全球算力角逐的角度,百年大計雲計算,現在都到了一個關鍵時刻。
