國產通用GPU持續迭代 助力本土大模型加快落地_風聞
科闻社-科闻社官方账号-天助自助者07-07 16:30
在OpenAI發佈ChatGPT後,中國知名高科技公司百度、阿里等陸續發佈了各自的生成式大模型。ICT產業巨頭華為也在今天發佈了盤古大模型3.0。
生成式大模型,從技術底座層面上,算力芯片是一個關鍵。也正是因為AI芯片在其中的關鍵作用,造就英偉達近半年的業界奇蹟。顯然,目前,國產底層的算力芯片能力是有所不足的。
故此,在這一領域,本土廠商正在積極作為。據報道,在正在舉行的世界人工智能大會上,就有11家本土芯片企業,帶來共計12款芯片展品亮相展會。這其中包括了天數智芯的“智鎧100”。
前不久,天數智芯產品線總裁鄒翾向外界介紹了天數智芯作為國產GPU廠商助力大模型的實踐。

鄒翾首先指出,基於Transformer結構的大模型,由於訓練的參數量級的增長致使計算需求量級增長,導致計算算力短缺,因而算力是否充足將決定各公司大模型產品的成敗。
鄒翾認為,在算力需求層面要考慮三大要素:一是通用,可支持模型的快速變形、快速支持新算子、快速支持新通訊;二是易用,可利用現有算法模塊實現、調優經驗可借鑑;三是通用,可重構並行計算、訪存全交換、計算全互聯。
鄒翾並強調,除算力之外,還有一些因素需要考量,那就是訓練的集羣需要成千上萬張卡同時運行,要保證在訓練過程中能連續工作且不出故障,對產品穩定性和可靠性產生極嚴格的要求。同時,還要支持可擴展的彈性能力,實現算力彈性可擴容。此外,還要提供堅實的保障,在故障出現時能迅速定位並快速恢復。
作為通用GPU廠商,順應大模型的發展潮流,天數智芯依託通用GPU架構,從訓練和推理兩個角度為客户提供支撐,全力打造高性價比、通用性的全棧式集羣解決方案,為大模型時代提供強大算力底座。為全面助力大模型的發展,天數智芯還圍繞底層技術支撐做了大量功課。
對於未來大模型的發展,鄒翾表示,不論從應用還是研發角度來看,大模型需求會持續走高,天數智芯也將持續致力於算法簡化、推理模型優化,並自主開發用户易用的通用GPU產品,不斷升級算力解決方案,適配支持更高效、更復雜算法的大模型。

據介紹,天數智芯的通用GPU產品天垓、智鎧系列具有自主可控、高性能、通用性、靈活性等特點,廣泛支持PyTorch、TensorFlow、PaddlePaddle等各種原生框架,支撐了200餘種人工智能算法模型穩定運行。
此外,在此基礎上,天數智芯自主研發了IXCCL分佈式通信技術,顯著提升多機多卡高速互聯性能,打造基於自主通用GPU的算力集羣方案,持續優化自動混精訓練、流水線並行、張量並行、數據並行以及模型並行等並行加速策略,讓大模型訓練、推理變得更加高效。