英偉達:創造DeepSeek-R1推理性能世界紀錄
汤普济我在看着你

(文/湯普濟 編輯/呂棟)
當地時間3月18日,英偉達CEO黃仁勳於GTC AI大會上發表演講,發佈最新一代Blackwell Ultra GPU(GB300)。同日, 英偉達官方博客發佈文章,宣佈利用Blackwell架構GPU實現DeepSeek-R1模型推理性能的世界紀錄。
英偉達此次利用單個配備八塊Blackwell架構B200 GPU的英偉達DGX系統,在英偉達評價為“超大規模、最先進的“DeepSeek-R1模型上,實現每用户每秒可處理超過250個token的性能,或每秒最大吞吐量超過30000個token。


NVIDIA
英偉達於2025年1月30日在面向開發者的網站上發佈NVIDIA NIM微服務版的DeepSeek,之後,英偉達不斷通過優化推理生態,刷新DeepSeek-R1模型的吞吐量。英偉達聲稱,自1月以來,DeepSeek-R1 671B模型的吞吐量已被提高了約36倍,相當於每token的成本降低了約32倍。
同時,英偉達聲稱,紀錄還將隨着Blackwell Ultra GPU和 Blackwell GPU在推理性能上的突破刷新。
據悉,英偉達此次發佈的GB300是全球首個288GB HBM3E GPU,FP4推理性能可達去年發佈的GB200的1.5倍,峯值可達15PFLOPS。將在2025年下半年出貨。
英偉達還預覽了下一代AI超級芯片——Vera Rubin,由Rubin GPU和Vera CPU組成。Vera CPU擁有88個定製Arm核心、176個線程。Rubin由兩塊掩模尺寸的GPU組成,擁有288GB HBM4內存,FP4峯值推理能力可達50PFLOPS,相比GB300,整體性能可達3.3倍。
此外,英偉達還發布了用於加速AI模型推理的分佈式推理服務庫NVIDIA Dyamo,據稱,在GB200 NVL72架構上運行Dyamo推理,能使DeepSeek-R1模型的吞吐量提升30倍。
本文系觀察者網獨家稿件,未經授權,不得轉載。