單卡支持大模型 首個高稀疏率AI計算卡S100在浪潮內測中表現優異
2022年7月5日,墨芯人工智能首次發佈SparseOne S100在浪潮服務器中的測試數據, S100是全球首個高稀疏率AI計算卡,運行多個AI主流模型,性能表現為國際大廠主流AI推理卡的6倍。更重要的是,它不僅性能優秀,能效比、功耗和精度同樣能給業界帶來驚喜,並具有良好的通用性。
墨芯人工智能以稀疏化算法為核心,打造雲端和終端AI計算加速方案,可廣泛應用於數據中心、互聯網、運營商、生命科學等場景,推動稀疏化計算生態建設。浪潮是墨芯人工智能的戰略投資者和生態合作伙伴。
S100單卡力挑T5-8B
可支持千億級別大模型
該報告在以下測試環境中進行,測試結果僅對被測系統當時的狀態有效。

報告中的實測數據顯示,與國際大廠主流AI推理卡對比,S100運行多個AI主流模型如T5、BERT和ResNet-50,性能為後者6倍。
值得注意的是,這是墨芯首次披露S100運行能夠實現單卡推理大模型,突破單卡難以滿足高算力需求的瓶頸,有效解決業界對大模型,普遍採取多機多卡分佈式的方式,完成推理所帶來的時間長、功耗高、成本高等問題。

近年來新興的NLP模型——T5,曾被稱為“全新NLP SOTA預訓練模型”,以其高參數量,讓許多計算卡“望而卻步”。但在本次測試中,S100在單機單卡環境下就能運行T5-8B模型,算力高達141.8 SPS。

除了高算力的優勢,相較於當前國際大廠主流推理卡單卡只能支持百億參數級別的模型,墨芯S100可以支持千億參數級別的模型。
S100不僅運行大模型性能測試表現優秀,運行其他經典AI模型,如自然語言處理領軍模型BERT、圖像分類識別模型ResNet-50的性能數據也很亮眼,為國際大廠主流AI推理卡的6倍以上。
S100運行BERT模型,SST-2數據集,在單機單卡環境下,不影響精度的前提下,性能達12176 SPS。

S100運行ResNet-50模型,ImageNet數據集,在單機單卡環境下,不影響精度的前提下,性能達28260 FPS。

在主頻800 MHz的測試環境中,S100運行ResNet-50模型時算力達33197 FPS。浪潮內測主頻為700 MHz。
所有測試均是在實際環境中,意味着S100計算卡能夠直接投入實際場景的使用,“實戰能力”超羣,擁有極高的應用價值。這意味着,S100不僅能夠提供高性能,還能同時滿足高能效比、低功耗和高精度,為企業大幅降低部署成本和運維成本。
稀疏化計算:不止於快
S100超高性能的秘密武器是稀疏化計算。簡單來説,稀疏化的原理是指,在AI矩陣運算中,將無效元素剔除,極大加快計算速度,降低計算成本。它在需要海量數據處理的AI加速計算中優勢尤為突出,能在提供高性能的同時,為企業提供高能效比、高精度和低功耗,為企業降本增效。
2021年8月,谷歌人工智能主管Jeff Dean在一次TED演講中表示,稀疏化是下一代AI架構中最重要的趨勢之一。他認為當前模型密集且效率低下,而谷歌的研發方向會把模型變得稀疏而高效。
如果説谷歌現在是稀疏化算法的推動者、稀疏化架構的倡導者,那麼墨芯已是稀疏化產業實踐者。早在2018年,墨芯即致力於稀疏計算的4產業化進程,採用軟硬協同的設計創新方法,將稀疏化算法升級到計算層面,實現高性能和高能效。
現在,根據潛在客户的反饋,稀疏化計算成為極富有競爭力的AI計算解決方案,因為它既能夠突破算力極限,又具有良好的通用靈活性,企業能夠能以極低的遷移成本,一鍵式地將稀疏計算功能添加到現有的計算設施中。
因此,墨芯的稀疏化計算解決方案具有廣闊的生態前景。墨芯人工智能創始人兼CEO王維表示,墨芯將構建涵蓋軟件、硬件、應用的AI計算平台,與研究人員、開發者、軟件開發商等合作伙伴一起,為各行各業用户提供高性能AI計算服務,共同構築場景豐富、生機勃勃的稀疏化生態。