英偉達：創造DeepSeek-R1推理性能世界紀錄

汤普济我在看着你

2025-03-19

（文/湯普濟編輯/呂棟）

當地時間3月18日，英偉達CEO黃仁勳於GTC AI大會上發表演講，發佈最新一代Blackwell Ultra GPU（GB300）。同日，英偉達官方博客發佈文章，宣佈利用Blackwell架構GPU實現DeepSeek-R1模型推理性能的世界紀錄。

英偉達此次利用單個配備八塊Blackwell架構B200 GPU的英偉達DGX系統，在英偉達評價為“超大規模、最先進的“DeepSeek-R1模型上，實現每用户每秒可處理超過250個token的性能，或每秒最大吞吐量超過30000個token。

NVIDIA

英偉達於2025年1月30日在面向開發者的網站上發佈NVIDIA NIM微服務版的DeepSeek，之後，英偉達不斷通過優化推理生態，刷新DeepSeek-R1模型的吞吐量。英偉達聲稱，自1月以來，DeepSeek-R1 671B模型的吞吐量已被提高了約36倍，相當於每token的成本降低了約32倍。

同時，英偉達聲稱，紀錄還將隨着Blackwell Ultra GPU和 Blackwell GPU在推理性能上的突破刷新。

據悉，英偉達此次發佈的GB300是全球首個288GB HBM3E GPU，FP4推理性能可達去年發佈的GB200的1.5倍，峯值可達15PFLOPS。將在2025年下半年出貨。

英偉達還預覽了下一代AI超級芯片——Vera Rubin，由Rubin GPU和Vera CPU組成。Vera CPU擁有88個定製Arm核心、176個線程。Rubin由兩塊掩模尺寸的GPU組成，擁有288GB HBM4內存，FP4峯值推理能力可達50PFLOPS，相比GB300，整體性能可達3.3倍。

此外，英偉達還發布了用於加速AI模型推理的分佈式推理服務庫NVIDIA Dyamo，據稱，在GB200 NVL72架構上運行Dyamo推理，能使DeepSeek-R1模型的吞吐量提升30倍。

本文系觀察者網獨家稿件，未經授權，不得轉載。