龍芯中科:凡是做CPU的企業,都必須要有自己的GPU_風聞
半导体产业纵横-半导体产业纵横官方账号-赋能中国半导体产业,我们一直在路上。1小时前

本文由半導體產業縱橫(ID:ICVIEWS)綜合
龍芯的目標是打造獨立於wintel/ AA 體系的中國自主信息技術體系和產業生態。
今日龍芯中科在北京舉辦了“2025 龍芯產品發佈暨用户大會”,會上龍芯3C6000系列處理器正式發佈,包括龍芯3C6000/S/D/Q等。
最新發布的龍芯3C6000採用我國自主設計的指令系統龍架構,無需依賴任何國外授權技術,是我國自主研發、自主可控的新一代通用處理器,可滿足通算、智算、存儲、工控、工作站等多場景的計算需求。目前,3C6000系列處理器已獲《安全可靠測評公告》當前最高等級二級認證,可確保關鍵領域應用安全。
龍芯3C6000基於LA664架構內核,六發射流水線,通用性能比上代成倍提高。單硅片擁有16核心32線程,頻率為2.0-2.2GHz,同時擁有32MB的片上高速緩存(LLC),支持四個72位內存通道,擁有多個PCIe 4x16/8接口,IO性能相比上一代3C5000成數量級提升。
通過龍鏈技術實現片間互連,雙硅片封裝即3C6000/D(3D6000),擁有32核心64線程;四硅片封裝即3C6000/Q(3E6000),可達60/64核心120/128線程。
其中龍鏈技術是對標NVLink,用於算力之間的互連,破解Chiplet的關鍵核心技術,可大幅降低延遲,提高帶寬效率。性能方面,16核心的2.2GHz 3C6000/S性能可達Intel第3代至強4314(10nm/16核心32線程/2.4-3.4GHz/24MB/135W)水平。
32核的3C6000D對標至強6338(32核心64線程/2.0-3.2GHz/48MB/205W);64核心的3C6000/Q更是可以對標至強鉑金8380(40核心80線程/2.1GHz/60MB/270W)。
胡偉武表示,從龍芯3C6000系列開始,性價比將逐步取代自主性成為選擇龍芯CPU的主要原因。
此次發佈的還有龍芯2K3000/3B6000處理器,同樣採用自主指令系統龍架構。

龍芯2K3000 和龍芯 3B6000M 是基於相同硅片的不同封裝版本,分別面向工控應用領域和移動終端領域。
據官方此前介紹,該芯片集成 8 個 LA364E 處理器核,基於主頻2.5GHz 下的實測 SPEC CPU 2006 Base 單核定點分值達到 30 分。芯片集成第二代自研GPGPU 核心 LG200,與龍芯2K2000 集成的第一代 GPU 核心 LG100 相比,圖形性能成倍提高。除圖形加速外,LG200 還支持通用計算加速和 AI 加速,單精度浮點峯值性能為 256GFLOPS,8 位定點峯值性能為 8TOPS。
芯片還集成獨立硬件編解碼模塊,支持各種主流視頻格式,支持eDP / DP / HDMI 三路顯示接口輸出,4K 高清處理性能達到 60 幀;集成安全可信模塊,可提供安全可信支持和密碼服務,在 SM2/3/4 硬件算法模塊外,還實現了可供軟件編程使用的可重構密碼模塊;集成豐富的 IO 擴展接口,包括 PCIe3.0、USB3.0 / USB2.0、SATA3.0、GMAC、eMMC、SDIO、SPI、LPC、RapidIO 和 CAN-FD 等,滿足不同領域的應用需求。
會上,龍芯中科技術股份有限公司首席工程師、通用GPU處理器研發總監蘇孟豪以龍芯GPGPU研發進展及規劃為主旨,展開演講。

蘇孟豪提到,龍芯的目標是打造獨立於wintel/ AA 體系的中國自主信息技術體系和產業生態,這一體系涵蓋多個層次的技術,若以三層小樓作比喻:第一層是CPU 和操作系統技術,第二層是網絡和虛擬化技術,第三層是虛擬化技術和智能化技術。樓層越高,技術越先進,但基礎的搭建需循序漸進,CPU 和操作系統是根基。
目前,龍芯的 CPU 經過長期發展積累,已具備極高的穩定性,而網絡和虛擬化等第二層、第三層的技術需求,將通過 GPU 來滿足。
龍芯自 2016 年便啓動了 GPU 的預研工作,初衷是為 CPU 提供配套支持。彼時,GPU 行業遠不如現在這般火熱,在龍芯 CPU 的應用推廣過程中,因 GPU 引發的問題不斷湧現。例如,進口 GPU 芯片供貨渠道不穩定,嵌入GPU在桌面場景不可用等。這些因素致使龍芯電腦在功能、性能和性價比上大打折扣。由此,龍芯總結出規律:凡是做CPU的企業,都必須要有自己的GPU。
起初,龍芯團隊在 GPU 領域近乎從零起步,但秉持着 “不會比 CPU 還難” 的信念開始探索。然而,深入研究後發現,GPU 作為圖形應用的加速系統,涉及眾多應用層相關背景知識,且缺乏像 CPU 那樣明確的資料,入門學習難度極大。為此,團隊從圖形算法調研入手,歷經模擬器架構設計研究、模擬器驗證、邏輯設計和功能驗證等環節,耗時 5 年才推出第一代圖形 GPU 架構。隨後,又用 2 年時間進行兩次小迭代,升級至龍芯7A2000與龍芯2K2000並推向市場。
龍芯 GPU 完全從 0 開始研發,無歷史包袱,具備後發優勢。第一代架構設計對標世界先進水平,跳過傳統 GPU 早期的固定功能管線階段和可編程管線階段,直接採用傳統圖形管線與大規模圖形計算相結合的統一渲染架構。在 API 支持方面,為滿足桌面應用的最低要求,選擇 OpenGL 2.1/ OpenGL ES 2.0 為標準,成功適配多種系統。截至目前,第一代龍芯 GPU 的用量已達百萬片規模,其可靠性和兼容性均通過市場檢驗,同時大幅降低了龍芯電腦的成本。第一代 GPU 的成功研發,使龍芯完成了圖形處理技術的原始積累,實現從 0 到 1 的突破,團隊也對 GPU 架構有了更深刻的理解。
在第一代 GPU 進入產品迭代階段後,龍芯迅速啓動第二代 GPU 架構的升級工作,目標是推動 GPU 邁向發展的第四個階段,即從圖形處理器(GPU)擴展為通用圖形處理器(GPGPU)。
在功能方面,API 將從 OpenGL 3.2 逐步升級至 4.0,並考慮支持 Vulkan,同時引入計算 API 支持,從 OpenCL 1.1 起步,逐步升級至3.0;在性能方面,着重提升兩個方向的能力,一是圖形流水可擴展、計算性能可擴展;二是提升性能功耗比、性能面積比。為此,龍芯制定了兩步走計劃:第一步完成基本架構升級、基本功能實現;第二步是功能性能擴展,全面調優。
龍芯從 2021 年下半年開始,經過架構設計、模擬器驗證、邏輯設計和功能驗證等階段,歷時 3 年,推出第二代架構的首個版本,並集成在龍芯 2K3000 中。
在通用計算架構下,雖然圖形渲染仍是 GPU 的核心能力,但設計思路已從以圖形為中心轉變為以計算為中心。以往是以圖形流水線為主,按需調用可編程流處理器,如今則將流處理器資源通用化,圖形處理以計算任務形式貫穿流水線。這一轉變使得圖形 API 能夠自然地向 Open 標準擴展,但也大幅增加了架構設計的複雜度。在龍芯 GPU 軟硬件團隊的努力下,相關目標正逐步實現。
在龍芯2K3000 的研製過程中,團隊開始關注智能化技術。人工智能可在 CPU、GPU 或專用 NPU 中實現。在 CPU 中實現 AI 功能,雖能融合到流水線,降低調用外部單元的開銷,適合輕量級應用,但難以滿足高算力需求;NPU 專注於 AI 應用,在能效和麪積上具有優勢,但當 AI 應用模式不確定時,專用設計可能存在侷限性;而現代 GPU 不僅具備強大的圖形處理能力,還擁有不錯的通用處理能力,因此在 AI 應用不斷創新的當下,選擇 “GPU + AI” 的技術路線成為業界主流,也是龍芯的優先選擇。
有了底層硬件基礎,算力生態的構建至關重要,這也是龍芯軟件生態的最後一環。經過調研,龍芯提出“兼容主流,擁抱開源,應用牽引,迭代發展” 的策略。龍芯加速計算平台提供OpenCL、CUDA兼容接口;支撐訓練、推理等全場景AI;支持OpenGL、Vulkan;支持視頻編解碼加速;支持雲、邊、端全領域應用。
龍芯未來產品展望

未來產品規劃方面,龍芯9A1000 是龍芯首款 GPU 芯片,定位為支持 AI 加速的入門級顯卡,GPU 核全面升級,功能方面,圖形 API OpenGL4.0 / OpenCL ES3.2;性能方面,圖形流水線 x2,主頻提升 25%;面積方面,流處理器面積減小 20%;功耗方面,輕負載功耗降低 70%。GPU 規模 x4(vs 2K3000),性能提升 5 倍以上,AI 算力達到 40TOPS。

龍芯 9A2000 是龍芯高性能 GPU 芯片,面向中高端顯卡,應用於桌面和服務器,通過優化和堆料,做大做強。GPU 核升級到第三代架構,單位面積算力進一步提升,圖形 API 支持 OpenGL4.6,加入虛擬化支持,張量單元支持更多數據類型,GPU 規模 x4(vs 9A1000),單精度浮點算力 5Tflops,INT8 AI 算力 160TOPS,內存帶寬 256GB/s,支持雙片互聯,總體性能再翻一倍,達到同工藝代下國際先進水平。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯繫後台。