CXL,AI時代的“運力”引擎_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。1小时前
生成式人工智能的突然爆紅,除了給算力芯片提出了更高的要求以外,傳統系統設計無法滿足計算需求的缺點也愈發明顯。
日前,專家在“2024開放計算中國峯會”上提到,在過去的發展中,內存和I/O的擴展能力已遠落後於計算密度的增長,平均到每個核心的內存和I/O帶寬更是持續下降。“而隨着AIGC時代的到來,內存需求大幅增加,同時也產生了梯度數據聚合與分發等海量I/O通信需求。這個時候,就需要新的架構來緩解系統內存和I/O瓶頸,實現數據處理規模、並行處理能力和系統算力提升。”
而近年來推出的CXL,正在成為其中的一個答案。
CXL,前景可期
所謂CXL,也就是Compute Express Link。作為一種開放標準的高速互聯協議,CXL的推出主要是要解決計算器件和內存之間的互聯問題,旨在改善處理器與加速器、內存擴展設備等之間的通信。
從技術上看,CXL是通過現有的PCIe(Peripheral Component Interconnect Express)物理層傳輸信號,但在協議層面上引入了新的特性和改進,以顯著提升系統中處理器、加速器和內存設備之間的數據交換效率和一致性,使得資源共享具有更低的延遲,減少了軟件堆棧的複雜性,並降低了整體系統成本,為高性能計算和大規模數據處理提供了更為強大的支持。
自2019年首次發佈以來,CXL在過去幾年裏已經演進到了CXL 3.1標準。在適用範圍方面,也從一開始的僅支持有限功能,增加到對橫向擴展 CXL 進行了額外的結構改進、新的可信執行環境增強以及內存擴展器的改進。
具體而言,CXL擁有以下三個關鍵特徵:
1.統一的內存模型:
CXL支持三種協議,分別是CXL.io、CXL.cache和CXL.memory。其中CXL.io主要用於傳統的I/O操作,與PCIe類似;CXL.cache和CXL.memory則提供了緩存一致性和內存訪問能力,使得CPU與加速器或內存擴展設備之間能夠共享和一致性地訪問內存。這對於加速器(如GPU、FPGA)而言尤為重要,因為它們可以更有效地訪問系統內存,而不必通過緩慢的I/O通道。
2.緩存一致性:
CXL允許處理器和外部設備(如加速器)共享相同的內存空間,並保持緩存的一致性。這意味着數據在不同設備之間傳輸時不需要頻繁複制或同步,從而提高了性能。
3.高帶寬低延遲:
通過優化的協議棧,CXL在維持高帶寬的同時還能提供低延遲的通信。這使得其在需要快速數據交換的應用中非常適合,如AI加速、數據分析等。相比於傳統的基於RDMA的分解內存架構,CXL可以實現納秒級的低延遲,相比於NVDIMM的非易失性內存,其時延也低幾個數量級。
“與其他互聯協議不一樣,CXL的關鍵差異點就在於其硬件支持cache coherency。”英特爾數據中心和人工智能集團至強客户解決方案事業部總經理李亞東在介紹CXL時強調。也正是因為具備這樣的特性,CXL可以實現CPU與加速器或內存擴展設備之間能夠共享和一致性地訪問內存,真正實現機架級的分解內存解耦架構。“除了CXL協議最初設想的用於CPU-GPU互相以cacheline顆粒度互相訪問對方內存並可緩存,CXL還能很好地解決LLM時代內存容量、成本、利用率等挑戰。”李亞東接着説。
據負責維護CXL標準的CXL聯盟介紹,如上圖所示,CXL有三種典型用例。知名分析機構Yole更是樂觀預期,到 2028 年,CXL 市場總收入將增長到 150 億美元以上。其中,DRAM 將構成 CXL 市場收入的大部分,到 2028 年市場收入將超過 120 億美元。除此以外,CXL 控制器和CXL交換機也將在市場中迅速發展。
有見及此,越來越多的廠商加入了CXL聯盟,以抓住這個由服務器和互聯新協議帶來的新機遇。
產業鏈玩家,各出奇招
作為CPU產業龍頭以及CXL的主要推動者之一,英特爾持續推進這項技術的進步和普及,公司是CXL spec的主要貢獻者,同時也在Linux kernel裏貢獻了大量CXL相關的代碼。第四代英特爾® 至強® 可擴展處理器支持CXL1.1,提供對Type1, Type2, Type 3設備(也就是大家期待已久的CXL內存擴展設備)的支持。在最新的至強6上,英特爾為CXL 2.0協議提供了支持,後續會有下一代新產品的持續支持和CXL技術迭代。
除了英特爾以外,作為方案提供商的浪潮信息,和軟硬件全套應用部署及行業標準最大推動者之一的阿里雲,也不遺餘力地參與到CXL的推廣中。
首先看全球領先的IT基礎設施產品、方案和服務提供商浪潮信息。據瞭解,浪潮信息從2022年開始就推出相關的CXL產品,具體而言就是CXL1.1時代的內存遠端擴展以及CXL 2.0時代的內存池化硬件等解決方案。當中,後者更是有望在未來的服務器應用中扮演重要的角色。
如前文所説,內存已經成為了當下服務器(尤其是AI服務器)的瓶頸。在這種情況下,自CXL 2.0時代引入的內存池化技術,就是一場“及時雨”。據介紹,該功能可以構建全局內存資源池,以此優化內存的總體利用率。而通過 CXL 交換機和內存控制器實現了“池化”後,內存資源的動態分配與回收也更方便。
浪潮信息內存池化項目負責人陳曦介紹説,從硬件角度看,這本身就是一個很難的技術,因為在實現過程中,需要考慮到互聯的損耗、整機系統的統一管理以及資源的調度。從固件和軟件的層面看,如何根據應用需求動態調度這些內存資源,讓CXL的性能發揮到最優效果,也是需要重點解決的問題之一。所以針對內存池化應用,一定是靠軟硬件協同設計實現,浪潮信息作為全球TOP服務器系統廠商,帶領廠商及各個合作伙伴,持續探索先進技術,推動技術實踐落地,讓我們的數據中心更綠色、更高效、更智能。
基於領先的技術積累,浪潮信息也開發出了領先的內存池化原型系統,實現多主機內存資源池化與共享,最大支持8HOST主機共享訪問內存資源池,支持百納秒遠端池化內存訪問。當中,浪潮信息還開發出了業界首款CXL交換機。支持CXL2.0&CXL1.1單元,單節點最大支持32路32GT/s x16對外互連端口,聚合帶寬達到4TB/S,支持任意上下行配置,支持direct mapping/pooling/sharing功能。
從下圖可以看到,內存池化在多個應用場景中都擁有着無可比擬的優勢。
來到阿里雲方面,作為CXL聯盟董事會成員,也是創始成員(阿里巴巴、思科、Dell EMC、Facebook、谷歌、慧與、華為、英特爾和微軟)之一,阿里雲全程參與了CXL協議的制定和迭代演進。阿里雲超高速互聯負責人孔陽表示,之所以如此看好CXL,是因為於服務器中不可或缺的CPU而言,這項技術能很有效地擴展內存帶寬,同時還可以擴展內存的容量並具備實現內存池化共享的能力。
“隨着數據越來越大,我們的計算節點核心節點越來越多,對於我們數據的處理能力需求越來越大。以內存來看,我們計算節點對於內存的帶寬和容量的需求是不斷提升的,這就催生一些針對於傳統服務器或者當前CPU擴展的內存,CXL就為這種需求提供了一種解決方案。”孔陽説。據介紹,阿里在CXL方向上的研發一直走在業界前列,研發了一系列產品和技術,並聯合多個業務方和合作夥伴進行了多個解決方案的探索;其中包含了Y-config共享內存驗證系統,業界首個大容量CXL內存模組,以及業界首個CXL Switch系統等。阿里雲在此基礎上形成了支持CXL的通用計算服務器、CXL Switch軟硬件系統、Alimemory(CXL Memory)、AliSCM(CXL Pmem)、Memory Box等較為完整的產品佈局,並通過這些產品支撐起彈性,可編排的磐久服務器方升機櫃級架構。阿里雲認為只有通過從部件到機櫃的軟硬件結合整體技術能力,才能充分發揮CXL的業務價值,把握未來服務器架構的發展方向。
就拿阿里雲推出的業界首個基於CXL Switch內存池的業務系統解決方案來説,該設計支持CXL擴展、池化、共享,通過CXL Farbic,對各類設備進行擴展。早在2022年雲棲大會曾介紹該CXL方案的系統架構,並在2023年雲棲大會展示了CXL Switch+ CXL Memory Box的硬件設備,是業界首家發佈相關軟硬件系統的雲計算公司。該方案通過CXL Switch Box系統,提供大容量、高性能、靈活性強的池化內存系統,可搭載包括阿里自研持久化內存AliSCM、大容量CXL接口AliMemory等部件。
正是在阿里雲這樣的從協議到產品再到生態建設的成員推動下,CXL ecosystem近年的發展非常快。在過去的若干年裏,阿里雲同時對Gen-Z,CCIX,CXL等互連技術一直保持密切的跟蹤,在判斷CXL作為通用計算側內存語義的統一協議接口後,就在CXL方向上持續投入保持業界領先的技術把控和產研部件研發。在芯片和硬件生態角度,阿里作為CXL協議聯盟的創始會員,除了積極的參與協議的設計和規劃,也大力地推動CPU、Switch和部件合作廠商支持CXL特性,目前業界對CXL1.1已經有產品化的部件,包括CPU、部件、retimer,連接器等。分別在24~25/25~26年,業界會陸續推出支持CXL2.0/CXL3.x的產品面世。
寫在最後
不僅僅是英特爾的至強處理器,行業內其它廠商的CPU、switch、memory expander,和retimer等芯片產品也在陸續發佈,同時也有ISV和OEM提供了CXL 內存擴展、內存池化等解決方案。而隨着越來越多的生態合作伙伴加入,我們也期待未來CXL技術會有蓬勃發展。
例如在當前火熱的AI時代,要更高性能的系統互連、內存、存儲。CXL提供的內存語義和緩存一致性協議對於AI這類應用具有天然的優勢。尤其是內存擴展、池化、共享等技術,英特爾正在與多個業界夥伴合作用於AI應用場景的解決方案。
不過,從上面的介紹中我們可以看到,當前的很多CXL應用都是圍繞這Memory做文章,這其實可以理解的。因為需求太大,成本又太高,池化就可以最大限度地在容量、帶寬和成本中達到更好的平衡。但是,從CXL的初衷看來,其推出的目標之一是解決計算器件本身之間的高速連接,解決CPU、GPU之間怎麼進行高速交換以及高速交換中的數據和帶寬問題。於是,推動CPU與加速器(如GPU、FPGA、AI專用芯片)之間的高速、低延遲通信的異構計算普及會成為CXL未來發展的要務。
總而言之,在CXL的推動下,高效率的數據中心成為可能,這項技術也將成為雲計算、大規模AI模型訓練、實時數據分析和邊緣計算等應用的重要支柱。CXL也勢必將在數據中心繫統中扮演重要角色。