融合架構3.0:開啓計算體系架構再創新的密鑰_風聞
大数据在线-08-28 09:23
2019年,圖靈獎獲得者John Hennessy和David Patterson在ACM刊登署名文章《計算機體系結構的新黃金時代》中認為:計算體系架構又將迎來創新的黃金十年,新的架構創新會帶來更低成本,以及更優的性能、安全性和能耗。
的確,在摩爾定律(Moore’s Law)和登納德縮放(Dennard Scaling)定律逐漸放緩甚至走向失效之際,現有計算機體系架構的弱缺點日趨凸顯。尤其是2016年以來,深度學習、機器學習、大模型等獲得突飛猛進的進步,GPU、NPU等XPU需求旺盛,算力需求全面走向異構化、多樣化,計算體系架構開啓新紀元已是大勢所趨。
那麼,計算體系架構再創新的重點與方向有哪些?XPU等部件級的架構創新固然令人眼前一亮,但從算力整體視角的創新終究能給產業發展帶來更具影響力的突破。正如浪潮信息從2014年開始就致力於融合架構的探索,兩代融合架構對於算力產業發展起到關鍵作用。
如今,在OCP China Day 2023上,浪潮信息又發佈了融合架構3.0原型系統,帶來系統級多元異構融合、機櫃級解耦和池化以及資源異步升級等多個層面的創新,為計算體系架構新黃金時代書寫濃墨重彩的一筆。
以數據為中心的時代到來
如果説數據是這個時代最重要的生產要素,那麼AI則是實現數據價值的最佳生產工具。
如今,一個以數據為中心的時代正在加速到來。IDC《全球計算力指數白皮書203》認為,未來基礎架構將是以數據為中心的計算體系架構。事實上,從最近十年人工智能的發展也能透視這一趨勢,深度學習、機器學習、LLM大模型的興起,帶來了翻天覆地般的算力新需求,也對於傳統以CPU為核心的計算體系架構帶來巨大沖擊。
像AIGC浪潮到來,讓數據規模、參數量、並行處理規模再上一個台階,也使得數據中心的 “內存牆”、“I/O牆”、“功耗牆”等現象愈發突出。例如,OpenAI的GPT-4的參數量已經達到驚人的1.8萬億,有13萬億Token訓練,未來的GPT-5參數量更可能達到10萬億,海量參數的並行處理,不僅帶來對於內存需求的大幅增加,也會產生梯度數據聚合與分發等海量通信需求,以及極高的能耗表現。
除了AI帶來顯著算力挑戰之外,千行百業用户們的數字化轉型已步入深水區,雲、邊、端等業務場景極為豐富多樣,這些業務場景均有一個顯著特點,即以數據驅動為核心,對於算力需求卻五花八門,對於底層的算力基礎設施提出了更加複雜和細分化的需求,而傳統計算架構從處理能力、運維管理、資源共享等維度均很難滿足數字化轉型的深層次需求。
因此,以系統創新的視角來推動計算體系架構發展是當下最為重要的方向,需要讓基礎設施整體資源進行解耦與池化,以更加細粒度功能服務來支撐起豐富多樣的應用需求。正如浪潮信息服務器產品線總經理趙帥所言:“當前計算體系架構的不足已經在逐漸放大。融合架構3.0是浪潮信息對計算體系架構整體創新的一種探索。”
融合架構3.0創新難在哪
《人月神話》有句名言:“這個世界上沒有銀彈。”同樣,計算體系架構的創新是一個長期、不斷摸索和迭代上升的過程,創新逐步積累才能實現從量變到質變,絕沒有捷徑可走。
浪潮信息融合架構九年發展歷程最能體現這一點。在融合架構1.0時期,浪潮信息主要解決的是集中供電、散熱等非IT資源的模塊化;融合架構2.0實現進一步的升級,實現存儲、網絡等資源的池化,並利用虛擬化、雲計算等技術來滿足用户需求;而融合架構3.0則有了突破性的進展,實現計算資源、存儲資源、內存資源、異構加速資源等核心IT資源徹底解耦與池化,通過軟件定義的方式實現資源協同動態調度。
“融合架構3.0原型系統效率可比上一代軟件虛擬化系統提升一到兩個數量級,可擴展性提高2~4倍,系統延時降低90%。”趙帥介紹道。
所有資源的解耦與池化,意味着打破了過去資源孤立的情況,通過整體協調與調度,應用可以根據需求來對資源進行隨需所用,這無疑會對性能、成本、能耗等方面帶來全面的優化。
趙帥直言,浪潮信息在探索融合架構3.0時遇到最大的挑戰有二:其一是內存池化資源,其二是池化後系統的互連。
眾所周知,內存解耦與池化一直都是計算體系架構創新的難點。在AI大模型等帶動下,CPU、GPU、FPGA等多設備的大容量內存使用已經成為常態,進而導致了內存資源池化之後的緩存一致性等挑戰。融合架構3.0的思路就是研製新型應用串行緩存一致性總線及其交換技術的內存模組和內存池化系統,利用CXL互聯技術來實現多設備之間的高速互聯,為大規模內存擴展與內存資源池化提供了低延時的訪問路徑以及緩存一致性保證,滿足內存池化後的資源共享和高效運算調度需求。
趙帥介紹:“利用CXL高速互聯技術,可以讓遠端內存像本地內存一樣,達到相近的延遲。CXL已經發布3.0版本,數據傳輸速率提升到64GT/s,隨着更多AI相關處理器接入CXL 交換網絡,整系統內存可以實現硬件層面全局共享,將顯著緩解AI大模型訓練‘內存牆’問題。”
由於實現了機櫃級的解耦和池化,這意味着數據速率不斷攀升和系統鏈路更加複雜,池化之後互連設計變得無比重要,這是確保池化之後資源協同調度和靈活按需使用的關鍵。浪潮信息的解決思路是在融合架構3.0中針對複雜鏈路高速互連進行高精度的擬合仿真研究,準確分析系統互連鏈路多樣化拓撲和傳輸速率的極限。並通過探索服務器內部總線光互連技術,延展鏈路傳輸距離,實現數據中心大規模資源解耦池化。
浪潮信息技術研發部副總經理吳安認為:“融合架構3.0從設計角度是按照三步走,首先是解耦,之後把不同資源進行池化,池化之後就是重構。在這個過程中,互連是核心所在。例如,解耦池化之後,涉及到時序、時鐘管理、供電管理、散熱管理等如何協同管理與控制;資源重構時的邏輯單元、池化管理以及策略自動化等都需要互聯技術來協調。”
事實上,浪潮信息融合架構3.0原型系統的出現,將逐步打破未來算力產品迭代的模式。眾所周知,過去服務器等算力產品的更新與迭代以處理器更新為產品更新換代的基礎。如今,融合架構3.0原型系統的出現,則有望真正實現以數據處理為需求中心,根據用户業務需求來進行更新迭代。
吳安介紹:“融合架構3.0提供了異步迭代這個更具想象空間的方式。因為融合架構3.0不再以CPU處理器為核心,而是與數據處理為核心。例如,很多用户業務上並不需要很快升級到DDR 5,業務對於DDR 5帶寬速率提升並不在意,反而希望利用DDR 4延時、價格等優勢,此時可以通過融合架構3.0實現異步升迭代,在DDR 5平台上使用DDR 4。”
John Hennessy和David Patterson在《計算機體系架構的新黃金時代》也認為,未來的計算體系架構垂直整合將變得無比重要。顯然,融合架構3.0原型系統是體系架構創新的一次重要探索,它在多個技術點突破的基礎上,從整體角度形成一個系統級的解決方案。
“融合架構3.0 目前是一個原型系統,未來在技術上還會有更多突破點,從而實現更好的落地效果。”趙帥如是説。
開啓體系架構再創新的密鑰
近年來,業界關於計算體系架構創新的呼聲此起彼伏。在眾多廠商中,浪潮信息是為數不多路線規劃明確、穩步推進的廠商之一。隨着融合架構3.0 原型系統的發佈,作為算力產業領導者的浪潮信息也有望以融合架構3.0為抓手,牽引整個產業界加速開啓計算體系架構的黃金時代。
首先,融合架構3.0 作為計算體系架構創新探索的一次突破,猶如一個開放的生態,將極大降低新技術融入和採用的門檻,並有望帶動整個算力產業界的創新活躍度。例如,GPU之所以在當前AI大模型等領域受到追捧,很關鍵的因素在於其工具等生態的成熟,隨着AI大模型逐步融入到各行各業之中,未來還會衍生出大量的推理和訓練需求,通過融合架構3.0可以引入更多優秀的新技術。
其次,融合架構3.0原型系統的發佈,有望帶動創新技術加速落地到千行百業的數字化轉型之中。當前,融合架構主要還是互聯網用户在廣泛使用,但隨着千行百業數字化轉型步入深水區,互聯網用户今天在基礎設施遇到的挑戰可能就是未來行業用户會遇到的。因此,融合架構3.0可以快速彌補傳統行業用户的技術鴻溝,實現業務的加速轉型。
毫無疑問,下一個十年將是計算體系架構創新的“寒武紀”,各種創新必然大爆發和層出不窮,一個令人激動的時代已然開啓。浪潮信息融合架構3.0原型系統無疑是計算體系架構一次大膽創新,對於產業界有着深遠意義。
“面向未來,企業各項業務會越來越依賴數據及價值,算力技術也需要不斷演進,去幫助企業提升數據處理效率和最大化釋放數據價值。”趙帥最後表示道。