微軟為OpenAI的ChatGPT構建了一台昂貴的超級計算機 - 彭博社
Dina Bass
訓練大型語言模型時,計算工作量被分配到成千上萬個GPU中,在一個高吞吐量、低延遲的網絡中連接在一起的集羣中。來源:微軟
當 微軟公司 在2019年向OpenAI投資10億美元時,同意為這家人工智能研究初創公司建造一台龐大、尖端的超級計算機。唯一的問題是:微軟沒有類似OpenAI所需的東西,也不確定能否在其Azure雲服務中構建如此龐大的系統而不會出現故障。
OpenAI正試圖訓練一組越來越龐大的人工智能程序,這些程序正在攝取更多的數據並學習越來越多的參數,這些參數是AI系統通過訓練和再訓練找出來的變量。這意味着OpenAI需要長時間訪問強大的雲計算服務。
為了應對這一挑戰,微軟不得不找到方法將成千上萬個英偉達公司的A100圖形芯片串聯在一起 —— 這是訓練AI模型的工作馬。並改變服務器在機架上的位置,以防止停電。微軟負責雲和人工智能的執行副總裁Scott Guthrie沒有給出項目的具體成本,但表示“這可能比幾億美元還要高”。
Scott Guthrie攝影師:Grant Hindsley/Bloomberg“我們構建了一個可以在非常大規模下運行並可靠的系統架構。這就是導致ChatGPT成為可能的原因,”微軟Azure AI基礎設施總經理Nidhi Chappell説。“這是其中一個模型的結果。還會有很多其他的模型。”
這項技術使OpenAI能夠發佈ChatGPT,這款病毒式聊天機器人在11月公開亮相後吸引了超過100萬用户,並且現在被引入到其他公司的商業模型中,包括億萬富翁對沖基金創始人Ken Griffin旗下的公司以及食品配送服務Instacart公司。隨着像ChatGPT這樣的生成式AI工具引起企業和消費者的興趣,雲服務提供商如微軟、亞馬遜和谷歌等將面臨更大的壓力,以確保它們的數據中心能夠提供所需的巨大計算能力。
Nidhi Chappell攝影師:Dan DeLong/微軟現在微軟正在使用為OpenAI構建的同一套資源來訓練和運行自己的大型人工智能模型,包括上個月推出的新Bing搜索機器人。它還將這套系統出售給其他客户。這家軟件巨頭已經開始着手下一代AI超級計算機的研發,這是與OpenAI的擴大交易的一部分,微軟向其投資增加了100億美元。
“我們沒有為他們構建一個定製的東西 — 它起初是一個定製的東西,但我們總是以一種通用的方式構建它,以便任何想要訓練大型語言模型的人都可以利用相同的改進,” Guthrie在一次採訪中説道。“這確實幫助我們成為一個更好的人工智能雲。”
訓練一個龐大的人工智能模型需要一個大型連接的圖形處理單元池,就像微軟組裝的人工智能超級計算機一樣。一旦模型投入使用,回答用户提出的所有查詢 — 稱為推理 — 需要一個稍微不同的設置。微軟還部署了用於推理的圖形芯片,但這些處理器 — 數十萬個 — 分散在公司的60多個數據中心區域。現在,公司正在為人工智能工作負載添加最新的英偉達圖形芯片 — H100 — 和英偉達最新版本的Infiniband網絡技術,以便更快地共享數據,微軟在週一的一篇博客文章中表示。
閲讀更多: 人工智能消耗多少能源?沒有人知道確切答案
新版Bing仍處於預覽階段,微軟正在逐漸從等待名單中添加更多用户。Guthrie的團隊每天與約兩打員工舉行一次會議,他們被稱為“維修組”,這個名字來源於在比賽中間調整賽車的一羣技工。這個團隊的工作是快速找出如何在線增加更多的計算能力,以及解決出現的問題。
“這非常像一個聚會,就像,‘嘿,有人有好主意,讓我們今天把它放在桌子上,讓我們討論一下,讓我們弄清楚,好的,我們能不能節省幾分鐘?我們能不能節省幾個小時?幾天?’” Guthrie説道。
雲服務依賴於成千上萬不同的部件和物品 — 服務器的單個部件、管道、建築物的混凝土、不同的金屬和礦物 — 任何一個組件的延遲或短缺,無論多麼微小,都可能導致一切混亂。最近,維修團隊不得不應對電纜托盤的短缺 — 這種像籃子一樣的裝置用來承載機器上的電纜。因此,他們設計了一種新的電纜托盤,微軟可以自行製造或找到其他地方購買。他們還致力於在全球現有的數據中心中儘可能多地安裝服務器,這樣他們就不必等待新建築物,Guthrie説。
當OpenAI或微軟正在訓練一個大型AI模型時,工作是同時進行的。它被分配到所有的GPU上,而在某些時刻,這些單元需要相互通信以共享他們所做的工作。對於AI超級計算機,微軟必須確保處理所有芯片之間通信的網絡設備能夠承受這種負荷,並且必須開發軟件以充分利用GPU和網絡設備。該公司現在已經開發出一種軟件,使其能夠訓練具有數萬億參數的模型。
由於所有機器同時啓動,微軟必須考慮它們的放置位置以及電源的位置。否則,你就會遇到數據中心版本的情況,就像在廚房裏同時打開微波爐、烤麪包機和吸塵器時會發生的情況,Guthrie説。
該公司還必須確保能夠冷卻所有這些機器和芯片,並使用蒸發、在較冷氣候中使用外部空氣以及在炎熱氣候中使用高科技沼氣冷卻器,Azure全球基礎設施總監Alistair Speirs説。
微軟將繼續致力於定製服務器和芯片設計,以及優化供應鏈的方式,以獲取任何速度增益、效率和成本節省,Guthrie説。
“目前讓全世界矚目的模型是建立在我們幾年前開始構建的超級計算機上的。新模型將建立在我們正在訓練的新超級計算機上,它更大,將實現更多的複雜性,”他説。