雲計算廠商的神器,DPU加持下的加密計算_風聞
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2021-07-23 14:52
原創:譚婧
人在幹,天在看,雲在算。
雲計算越發展,雲安全越重要。
故事得從小小的芯片講起。
一家以色列的芯片公司,名叫Annapurna Labs,以喜馬拉雅山脈的最高峯——安娜普爾納峯命名。
兩位創始人Billy和Nafea曾想在創業之前攀登此峯,挑戰人生極限。結果,造化弄人,沒登上此峯,卻登上了芯片界的險峯,換了個角度實現人生理想。
日後,這家智能網卡起家的公司,被亞馬遜雲科技公司(AWS)以3.5億美元高價收購。
這場收購,買到了定製化芯片(ASIC)的能力。
此時,AWS公司副總裁技術大神AnthonyLiguori(安東尼·利古裏)出場。
為Nitrosystem打下牢固的基礎,此處按下另表。
自此,AWS芯片實力大增。
雲計算走到今天,為了突破創新,不得不向芯片問路。這背後的本質是,系統架構創新。
系統架構是什麼?芯片以及配套的軟硬件。
這一次創新,帶來的機會是:
誰能成為下一代數據中心虛擬化標準架構的“王者”?
1
處在相同段位的技術領袖,判斷總是出奇的相似。
2016年,阿里雲彈性計算產品線負責人張獻濤博士低調地往返於北京和杭州兩地多次,他在勸説一位芯片主架構師加入阿里雲。
起初,人家不來。
原因也很清楚,2016年誰會相信互聯網公司需要芯片技術。也許是三顧茅廬的誠意,也許是前景,這位生於1979年的主架構師被勸動了。
張獻濤博士當時的原話是:“你在傳統公司很多年了,理解不透互聯網公司的決心,這件事情前人絕對沒做過,它可以改變雲計算裏面最核心的技術。”
信仰的光,最是感召。隨後,多位重量級芯片技術大拿前後加入阿里雲。
他們眼睛裏面的光芒,從何而來?
這要從虛擬化技術的過往講起。
2004年,張獻濤博士在讀,專攻虛擬化技術。當時,全球研究同領域的人不多,可能加起來不到一百人。擇業範圍太小了,張博士也擔心畢業之後能不能找到工作。
彼時,著名高校和前沿公司在研究虛擬化,斯坦福大學、劍橋大學,微軟公司、英特爾公司。問題是,沒有太多的地方用。
1997年,斯坦福大學背景的教授創立VMWare公司,成了虛擬化技術的商業鼻祖,但它主要在PC上運行,這和雲計算數據中心需要的虛擬化技術,大有不同。
或者説,雲計算之前的虛擬化技術,可以被稱為傳統虛擬技術。
七八年轉瞬而過,2005年,英特爾和AMD也看出來虛擬化技術的重要性了,運功發力推出了VT-x和VT-d,推了一把虛擬化技術的進程。
阿里雲成立的時候,思路也很清晰,必須拋棄那些不適用於雲計算的虛擬化技術,才能做雲計算的領頭羊。
所以,阿里雲自研虛擬化就從深度定製化和產品化的開源虛擬化軟件Xen和KVM開始。
2014年是張獻濤博士在英特爾的最後一年。
這一年,距離他開始博士研究,已經過去了整整十年。
這十年,他全神貫注研究虛擬化。
這一年,他加入阿里雲。
雲計算實現了虛擬化技術的躍遷,大家突然意識到虛擬化技術“值錢”了。但是,傳統技術的缺陷明顯,性能損耗,隔離性差,這些依然在給雲安全以重錘。
沒有云計算廠商不重視安全,安全是隨着技術發展動態變化的。
所謂魔高一尺,道高一丈。
但是,很多人對安全有偏見,觀點“看似挺對,其實不對”:
“現在才講安全,你以前的產品是不是都不安全?”
實際上,阿里雲安全團隊,獨立於集團的安全部門,是一支幾千人的團隊,只幹一件事,安全。
張獻濤博士坦言:“只要是個軟件,都會有安全相關的bug或者漏洞,所以,沒有絕對安全,只有更安全。”
解決安全問題,不是“堆”多少人力,而是徹底解決傳統技術的“缺陷”,安全的防線才能拔高。
用芯片解決缺陷是一個正確的方向,一開始只有AWS和阿里雲兩大巨頭死死盯着這條路。
多年後,回頭再看AWS的芯片收購案,抄了研發的近道,每年都為AWS省下大筆資金。省的,就是賺的。
但是,阿里雲的技術團隊不會走“重點技術採購於別家”這條路。説得再實際一點,體量越大的廠商,越是黑客眼裏的唐僧肉。
“體量”逼着阿里雲拿出巨大的決心從架構創新做起,一舉解決整個一代雲計算技術面臨的痛點。
先烈們説:“勞資,打的就是精鋭。”
阿里雲説:“我們,乾的就是自研。”
2016年的時候,張獻濤博士天天都在思考:如何通過架構創新解決傳統虛擬化在雲計算場景中的問題?
只有把虛擬技術想透徹的人,才能從根本上解決虛擬化的安全問題。
誰搞定了雲計算架構創新,誰將在雲場景中收益巨大。
2
2017年10月,阿里雲神龍架構發佈。
2017年11月,AWS Nitro system發佈。
全球兩家頂級雲廠商,不謀而合地打響了雲計算芯片創新的全球第一槍。
張獻濤博士談道:“神龍芯片,引領了下一代數據中心的虛擬化標準架構。”
從安全的角度講,有了神龍芯片,阿里雲的虛擬化安全就引領了一個時代。
怎麼做到的?
第一,用芯片實現隔離。
處理器和內存隔離,有兩個層面:安全,性能。
張獻濤博士談道:“所謂性能的隔離,是一台物理機上有兩個虛擬機的時候,互相不干擾,性能隔離做得不好,性能輸出會忽高忽低,這樣不能服務於企業客户。這也解釋了為什麼阿里雲2017年推出了企業級實例,做到完全隔離。”
阿里雲2017年的企業級實例產品和神龍前後腳推出,這不是巧合,是一起解決“不得不面對”的問題。
在技術早期階段,安全常常有讓步於性能的無奈。
“性能”對着“安全”吼:
“你能不能讓我先實現了,再考慮你。”
安全回答道:
“行啊,反正誰也離不了我。你不重視我,我就讓客户難受。”
第二,用芯片解決出入口漏洞。
就像防賊要防住門窗一樣,IO鏈路上是最容易出安全漏洞的。傳統的虛擬化相關軟件在那個時間點上,完完全全過時了。神龍芯片大刀闊斧,把該砍掉的全砍掉,所有IO鏈路完全用硬件實現。
現在,網絡和存儲的IO都做到了用單獨的硬件隊列在硬件中去實現。這樣,硬件上A和B兩個虛擬機的數據鏈路做到了完全隔離。
此時,硬件實現了軟件要做的事情,硬件的攻擊面小於軟件的,所以,更安全了。
另外,阿里雲把CPU、內存的虛擬化做得極其精簡。
張獻濤博士説:“所謂極其精簡,(就是)我們知道軟件的安全漏洞和它的代碼行數一定是成正比的,所以,會審查每一行代碼的安全問題。”
近幾年,主流公有云廠商將安全能力列為平台基礎能力,大舉投入。本質是,雲計算今非昔比,“性能”履行當年對“安全”的承諾。
性能解決了,更多兵力要劃撥到安全的戰場上去。
Gartner發佈2021年需深挖的9項重要戰略科技趨勢,其中之一是加密計算,到2025年將有一半的大型企業使用。
阿里雲對加密計算的研究,得從神龍芯片的研發時間開始推算。
因為神龍芯片一石三鳥,為雲安全解決了三個問題:
一個是性能隔離,
一個是數據鏈路隔離,
一個是建立獨立安全屋。
簡單理解,獨立安全屋就是加密計算。
加密計算是創造一個隔離環境,誰也進不來,管理員(阿里雲)也不行。加密計算靠的是硬件(處理器),把代碼和數據放到一個硬件保護起來的安全環境中去計算。
前文也提了,雲計算走到今天,為突破創新,不得不聯手芯片。阿里雲都這麼努力,英特爾這種老牌芯片公司會吃閒飯嗎?
加密計算技術有很多種,其中英特爾公司的SGX(Software Guard Extension,指令集擴展)尤為出名。
英特爾推出SGX這項技術,可以追溯到2004年。
十年後,SGX成為了系統安全領域的重大進展。
當下,SGX是較為成熟的加密計算技術,阿里雲也是最早支持SGX能力的雲廠商之一。
SGX能夠在計算平台上提供一個可信的隔離空間,保障用户關鍵代碼和數據的機密性和完整性。
SGX出貨量肯定很大,因為捆在英特爾CPU裏面了。
SGX的原理是,提供了一系列的擴展指令集,核心就是CPU運行的時候可以切換到Enclave的SGX模式。
切到這個模式裏之後,當CPU去內存裏取指令的時候,是把加密過的指令取到CPU裏解密。
加密內存中的數據,加密後的“密文”只有在處理器裏才會被解密成“明文”。
在CPU裏完成這個解密,再完成這個指令的執行。
處理器和內存都參與了加密,所以,這個運算過程在外部看來永遠是一個密文。要麼打破內存加密,要麼打破芯片處理器加密,黑客攻擊難度都很大。
加密計算用户可以讓數據的計算在保險櫃中進行,實現運行數據的“可用不可見”。
SGX2.0帶來的好消息是,英特爾SGX技術迭代了,到了這一代,Ice Lake(第三代英特爾®至強®可擴展處理器)可在多路服務器上支持SGX。
SGX2.0也是一個突破性的技術,從根本上解決了企業對於機器學習、人工智能等GB級以上數據量的高效運算技術需求,為金融互聯網等使用場景,提供了更高安全等級數據保護的支持。
或者説,目前,SGX2.0是真實場景、大數據、大規模情況下進行隱私計算唯一可實踐的技術路徑。
3
有用的數據,從一出生就需要保護。
所以,按數據生命週期的階段來劃分加密計算,有三位鏢師:
鏢師一,保護存儲中的數據,數據加密;
鏢師二,保護傳輸中的數據,加密協議;
鏢師三,保護使用中的數據,加密計算。
其中,鏢師三最難,保護使用中的數據,需用兩部《兵法》。
《兵法一》出自英特爾,SGX2.0+Enclave。
《兵法二》出自阿里雲自研虛擬化Enclave。
Enclave,中文譯為“飛地”,簡單理解就是大空間裏劃出來一個小空間。
Enclave是一個隔離環境,可以理解為,虛擬機中的虛擬機。
把雲計算比喻為一座宏偉大廈,從地基往上的每一層樓,每一個房間,都要安全,Enclave就好比房間裏面隔離出來的保險櫃。
(SGX支持虛擬化技術可以再虛擬出一個vSGX,也就是,把物理加密計算能力“給”虛擬機。vSGX通過虛擬化實現了在虛擬機層面基於SGX技術的Enclave。)
《兵法一》
是“硬件”SGX+Enclave技術。
用硬件安全強制保障軟件安全,最終達到保障虛擬化的安全的目的。這裏的硬件,指的是英特爾的硬件。
《兵法二》
是用神龍芯片構建了一個安全的微型服務器,通過芯片的隔離技術,構建了一個安全的執行環境。
可以這樣説,沒有第三代神龍架構,就不會有阿里雲自研虛擬化Enclave這種加密計算技術。
原理是,在虛擬機創建了Enclave隔離環境後,用本地加密通道對隔離環境下達指令和應用,提供全隔離、高可信的計算環境,隔離存儲設備、可交互環境和外部網絡連接。
SGX環境是一個硬件級別的環境,阿里雲儘管是在硬件上跑的系統,但是沒有權限看到裏面的東西,所以整個運行環境對阿里雲來説不在一個樓層裏,相當於阿里雲在三樓,SGX是在地下室操作。
所以,永遠不用擔心數據會被雲廠商偷窺。
兩部《兵法》理念相同,用不同的底層軟硬件技術實現。
阿里雲是業界最早實現加密計算(同時支持基於硬件及虛擬化)與可信計算的雲廠商,這些能力內置在阿里雲最新發布的第七代ECS雲服務器裏。
此外,第七代ECS雲服務不僅支持加密計算,還融合了可信計算,阿里雲也是業界最早同時提供這兩種原生計算安全的廠商。
加密計算涉及硬件、BIOS、操作系統、虛擬化、管控軟件、SDK、遠程證明服務等組件的開發與改造,技術難點很多,最難點在於虛擬化技術需要與阿里雲彈性計算的神龍架構融合。
這背後有三支攻堅小組:安全小組、虛擬化小組、神龍軟硬一體化小組。其中,安全小組裏遍地是高(A)手(+)和高(a)高(li)手(xing)。
黑客見狀,高聲大呼:放棄幻想,趁早改行。
可以預見,加密計算作為一種基礎技術,將作為運算環境必不可少的一部分,存在於越來越多的計算節點上,配套的加密計算應用也會應運而生,將會給雲計算帶來新一輪大發展。
安危他日終須仗,甘苦來時要共嘗,技術發展和安全的關係就是這樣。
阿里雲用芯片一小步,成就雲安全一大步。
最後,補充一個問題:神龍芯片的本質是什麼?
正是當今資本追捧,軟硬一體,深度協同,使用芯片對數據面加速的三好學生優秀班幹部——DPU。
(完)
最後,再介紹一下主編自己吧。
我是譚婧,科技和科普題材作者。
圍追科技大神,堵截科技公司。
生命短暫,不走捷徑。
還想看我的文章,就關注“親愛的數據”。
