國產通用GPU持續迭代助力本土大模型加快落地_風聞

科闻社-科闻社官方账号-天助自助者07-07 16:30

2023-07-07

在OpenAI發佈ChatGPT後，中國知名高科技公司百度、阿里等陸續發佈了各自的生成式大模型。ICT產業巨頭華為也在今天發佈了盤古大模型3.0。

生成式大模型，從技術底座層面上，算力芯片是一個關鍵。也正是因為AI芯片在其中的關鍵作用，造就英偉達近半年的業界奇蹟。顯然，目前，國產底層的算力芯片能力是有所不足的。

故此，在這一領域，本土廠商正在積極作為。據報道，在正在舉行的世界人工智能大會上，就有11家本土芯片企業，帶來共計12款芯片展品亮相展會。這其中包括了天數智芯的“智鎧100”。

前不久，天數智芯產品線總裁鄒翾向外界介紹了天數智芯作為國產GPU廠商助力大模型的實踐。

鄒翾首先指出，基於Transformer結構的大模型，由於訓練的參數量級的增長致使計算需求量級增長，導致計算算力短缺，因而算力是否充足將決定各公司大模型產品的成敗。

鄒翾認為，在算力需求層面要考慮三大要素：一是通用，可支持模型的快速變形、快速支持新算子、快速支持新通訊；二是易用，可利用現有算法模塊實現、調優經驗可借鑑；三是通用，可重構並行計算、訪存全交換、計算全互聯。

鄒翾並強調，除算力之外，還有一些因素需要考量，那就是訓練的集羣需要成千上萬張卡同時運行，要保證在訓練過程中能連續工作且不出故障，對產品穩定性和可靠性產生極嚴格的要求。同時，還要支持可擴展的彈性能力，實現算力彈性可擴容。此外，還要提供堅實的保障，在故障出現時能迅速定位並快速恢復。

作為通用GPU廠商，順應大模型的發展潮流，天數智芯依託通用GPU架構，從訓練和推理兩個角度為客户提供支撐，全力打造高性價比、通用性的全棧式集羣解決方案，為大模型時代提供強大算力底座。為全面助力大模型的發展，天數智芯還圍繞底層技術支撐做了大量功課。

對於未來大模型的發展，鄒翾表示，不論從應用還是研發角度來看，大模型需求會持續走高，天數智芯也將持續致力於算法簡化、推理模型優化，並自主開發用户易用的通用GPU產品，不斷升級算力解決方案，適配支持更高效、更復雜算法的大模型。

據介紹，天數智芯的通用GPU產品天垓、智鎧系列具有自主可控、高性能、通用性、靈活性等特點，廣泛支持PyTorch、TensorFlow、PaddlePaddle等各種原生框架，支撐了200餘種人工智能算法模型穩定運行。

此外，在此基礎上，天數智芯自主研發了IXCCL分佈式通信技術，顯著提升多機多卡高速互聯性能，打造基於自主通用GPU的算力集羣方案，持續優化自動混精訓練、流水線並行、張量並行、數據並行以及模型並行等並行加速策略，讓大模型訓練、推理變得更加高效。