AWS計算和網絡副總裁:亞馬遜為什麼同意Nvidia雲端合作?_風聞
BImpact-宇婷,To B行业观察者、资深媒体人、博主。-昨天 21:15

亞馬遜網絡服務上週宣佈,將允許Nvidia在AWS數據中心運營雲服務,使得AWS成為最後一個提供此服務的主要雲供應商。根據《The Information》的報道,通過這項名為DGX雲服務的新服務,Nvidia將從AWS租用包含其圖形處理單元的服務器,然後向其自己的客户出售服務器的訪問權限。
作為交易的一部分,AWS表示將成為首個將Nvidia最新的圖形處理單元(稱為Grace Hopper超級芯片或GH200芯片)引入雲端的雲供應商,並使用Nvidia的網絡設備將芯片連接在一起。GH200芯片將GPU與Nvidia的通用計算芯片(稱為中央處理單元)組合在一起,以增加內存。谷歌、微軟和甲骨文通過DGX雲服務提供Nvidia的H100芯片,預計他們也會購買GH200芯片。
總結
亞馬遜網絡服務將提供Nvidia的DGX雲服務
AWS是最後一個提供此服務的主要雲供應商
公司之間的關係很複雜:亞馬遜正在製造芯片,而Nvidia正在提供雲服務
雲服務提供商如AWS是Nvidia GPU的最大買家之一,但兩家公司之間的關係非常複雜。AWS正在開發自己的AI芯片Trainium和Inferentia,與Nvidia的芯片競爭。同時,Nvidia的DGX Cloud是芯片製造商為了更靠近用户併產生額外收入而做出的努力,這對AWS等雲服務提供商構成了潛在威脅,據《The Information》報道。
在AWS的Re:Invent大會上,《The Information》採訪了AWS計算和網絡副總裁Dave Brown,以瞭解為什麼雲服務提供商同意DGX Cloud交易的信息,這是此前未曾報道的。在採訪中,Brown還討論了AWS如何緩解芯片和電力短缺問題。
以下采訪經過了編輯,以縮短長度並提高清晰度。
The Information:為什麼AWS和Nvidia合作推出DGX Cloud以部署新的GH200芯片?
這是一個非常非常困難的工程問題。因此,我們相信這兩家公司最有能力解決這個問題。
目前GPU的規模已經超過了服務器。即使是今天,運行GPU也非常複雜。這就是為什麼大多數公司不在自己的數據中心內部進行GPU運算的原因,這是不可能的。因此他們轉向雲服務提供商,但我認為我們現在進入了一個需要最優秀的雲服務提供商才能以高可用性的方式實現的世界。
AWS是最後一個與Nvidia簽署DGX Cloud協議的主要雲服務提供商。為什麼會這樣?
我們最初沒有參與。我們只是認為現在不是合適的時機。我們希望能夠在AWS上真正區別於市場上可獲得的產品。
你們不能用備受追捧的H100芯片來創造差異嗎?
這需要一些時間,這需要真正理解,“我們如何一起創造差異化?”與合作伙伴的差異化需要時間。您需要確切地瞭解他們所提供的內容,他們也需要了解您所提供的內容。您需要深入瞭解對方的技術,並瞭解彼此的優勢組合可以為最終客户創造出更好的產品。
我們選擇了不參與首次合作,但這並不意味着我們曾説過不會在未來參與。實際上只是一個時間問題,我們是否能找到差異化的產品。
AWS的DGX Cloud與其他雲服務提供商提供的產品有何不同?
[其他雲服務提供商]可能也有GH200芯片,但他們沒有多節點[NVLink,這是AWS將用於將32個GH200芯片連接在一個服務器機架上的技術]。這是首次有人在雲中使用水而不是空氣來冷卻Nvidia GPU。
今天,我們的服務器有八個GPU。使用八個GPU,可以使用空氣進行冷卻。但當你開始使用32個GPU時…密度太高,無法再用空氣冷卻[GPU服務器]。這帶來了許多工程複雜性,而AWS在這方面處於最佳位置。
我們有Nitro系統[可以將部分計算工作外置到服務器之外的芯片],我們知道Nitro系統不僅提供更好的安全性,還提供更好的性能。然後我們還有彈性佈線適配器[Elastic Fabric Adapter,AWS的網絡系統]。彈性佈線適配器與InfiniBand非常相似,其他提供者也在使用,但基於以太網。[彈性佈線適配器]是我們自己開發的協議,並且這是我們在所有實時GPU集羣中使用的協議。
當您看整個解決方案時,它是完全有差異的。
通過DGX Cloud,誰將能夠訪問這些GPU集羣?
Nvidia將用該集羣進行[其]內部工作負載,然後他們還希望幫助客户進行模型訓練。這就是DGX Cloud。我們還將為最終客户提供這些GPU,就像我們今天有P5服務器[Nvidia H100s]一樣,您將能夠在DGX Cloud之外獲得對此集羣的訪問。因此,DGX Cloud有16384個GPU,除此之外,我們還將為AWS上的客户提供更多的GPU。
您對Advanced Micro Devices(AMD)最新的GPU感興趣嗎?這些GPU被稱為MI300系列**,被認為與Nvidia GPU競爭,並在某些任務上可能更好。**
在將芯片引入AWS之前,我們會考慮很多因素,其中一部分是如何確保該芯片在AWS上運行得無缺陷?我們如何確保在GPU領域有一個完整的生態系統,能夠支持我們擁有的芯片?
目前,我們選擇將重點放在Nvidia和Trainium [AWS的內部AI訓練芯片]上,但這當然不意味着我們不會考慮其他加速器 - 英特爾、新創企業或其他什麼。如果有我們認為客户真正想要的東西,我們絕對會將其引入AWS。
部署GPU的最大瓶頸之一是數據中心的電力供應,因為GPU非常耗電。AWS是如何解決這個問題的?
在我們的區域,某個地理區域可用的電力是有限的。幾年前我們建立了本地區域[靠近終端用户的數據中心]。我們從洛杉磯開始,現在全球有大約40個本地區域。這是一個遠離[具有多個數據中心的區域樞紐]的AWS數據中心。
通常出於延遲的原因而這樣做,以便靠近用户。但在GPU的情況下,我們能夠將本地區域用於電力資源充足的地方。亞利桑那州就是一個很好的例子。我們在亞利桑那州建立了一個本地區域。現在,那裏有很多的[GPU]。
我們不必像其他雲服務提供商那樣尋找其他供應商。[微軟最近與CoreWeave和Oracle達成了協議。]我們能夠尋找數據中心,找到電力,然後快速將其作為本地區域投入使用。這需要幾個月的時間。
幾周前,您宣佈了一項名為Capacity Blocks的服務,旨在使客户更容易租用帶有GPU的服務器。是什麼促使您創建這項服務?
對我們來説,這是一個非常快節奏的領域。我們在幾個月內建立了Capacity Blocks[這項新服務]。我們意識到,在供應受限的環境中,目前的雲服務器銷售方式對於GPU來説效果不佳。
情況是,只要有任何可用的GPU,它就會馬上被搶購。對於創業公司來説,實際上很難獲得這些GPU。通常情況下,只有一些更大、更有資金的組織才會一直尋找GPU。因此,即時服務的模式並不適用。
即使在不受限制的情況下…你願意為你不需要的GPU花錢嗎?我認為組織們正在努力應對這樣的問題:“我如何在需要時獲得GPU?”
然後另一個挑戰是您需要將它們部署在一個網絡中,所有GPU都在同一個集羣中。競價市場在訓練中實際上並不起作用,因為您可能會在這裏有一個GPU,在那裏有一個GPU,這不是一個集羣解決方案。
Capacity Blocks可以保證訪問這些GPU,並且定價有所不同。如果您在週末運行,價格會更低。
我們應該期待在這方面看到更多嗎?
您將看到我們非常快速地進行迭代 - 不同的區域、不同的實例類型、不同的購買方式。您將看到我們與其他創業公司合作,並且在這個領域將會有很多機會。所以請密切關注。