阿里推出“通義”大模型系列，實現AI不同模態、任務、架構統一

2022-09-02

【環球網科技綜合報道】9月2日消息，在阿里巴巴達摩院主辦的世界人工智能大會“大規模預訓練模型”主題論壇上，達摩院副院長周靖人發佈阿里巴巴最新“通義”大模型系列，並宣佈相關核心模型向全球開發者開源開放。

據介紹，面向大模型通用性與易用性仍欠缺的難題，通義打造了業界首個AI統一底座，並構建了大小模型協同的層次化人工智能體系，將為AI從感知智能邁向知識驅動的認知智能提供先進基礎設施。

周靖人介紹稱，近年來，大模型表現出前所未有的理解與創造能力，且打破了傳統AI只能處理單一任務的限制，讓人類離通用人工智能的目標近了一步。但大模型在實現全模態和全任務的通用性上仍存在許多技術難點，同時受算力資源限制，其訓練與落地應用頗具挑戰。

2021年，阿里巴巴達摩院先後發佈多個版本的多模態及語言大模型，在超大模型、低碳訓練技術、平台化服務、落地應用等方面實現突破，引領了中文大模型的發展。尤其引發關注的是，達摩院團隊使用512卡V100 GPU即實現10萬億參數大模型M6，同等參數規模能耗僅為此前業界標杆的1%，極大降低了大模型訓練門檻。

今年，阿里巴巴在解決大模型通用性及易用性難題上繼續發力。達摩院副院長周靖人介紹，為了讓大模型更加“融會貫通”，達摩院在國內率先構建了AI統一底座，在業界首次實現模態表示、任務表示、模型結構的統一。

據他介紹，通義統一底座中M6-OFA模型，作為單一模型，在不引入新增結構的情況下，可同時處理圖像描述、視覺定位、文生圖、視覺藴含、文檔摘要等10餘項單模態和跨模態任務，且效果達到國際領先水平。這一突破最大程度打通了AI的感官，受到學界和工業界廣泛關注。近期M6-OFA完成升級後，可處理超過30種跨模態任務。

“大模型模仿了人類構建認知的過程，這是當下我們面臨的重要機遇。通過融合AI在語言、語音、視覺等不同模態和領域的知識體系，我們期望多模態大模型能成為下一代人工智能算法的基石，讓AI從只能使用‘單一感官’到‘五官全開’，且能調用儲備豐富知識的大腦來理解世界和思考，最終實現接近人類水平的認知智能。”周靖人表示。

同時，以統一底座為基礎，達摩院構建了層次化的模型體系，其中通用模型層覆蓋自然語言處理、多模態、計算機視覺，專業模型層深入電商、醫療、法律、金融、娛樂等行業。通用與專業領域大小模型協同，讓通義大模型系列可兼顧性能最優化與低成本落地。為加快大模型規模化應用，達摩院還研發了超大模型落地關鍵技術S4框架，百億參數大模型在壓縮率達99%的情況下多任務精度可接近無損。

據悉，通過部署超大模型及輕量化版本，阿里巴巴通義大模型系列已在超過200個場景中提供服務，實現了2%～10%的應用效果提升。典型使用場景包括電商跨模態搜索、AI輔助設計、開放域人機對話、法律文書學習、醫療文本理解等。

此外，與本次發佈同步，通義大模型系列中語言大模型AliceMind-PLUG、多模態理解與生成統一模型AliceMind-mPLUG、多模態統一底座模型M6-OFA、超大模型落地關鍵技術S4框架等核心模型及能力已面向全球開發者開源，最新文生圖大模型近期將開放體驗。