阿里推出“通義”大模型系列,實現AI不同模態、任務、架構統一
【環球網科技綜合報道】9月2日消息,在阿里巴巴達摩院主辦的世界人工智能大會“大規模預訓練模型”主題論壇上,達摩院副院長周靖人發佈阿里巴巴最新“通義”大模型系列,並宣佈相關核心模型向全球開發者開源開放。

據介紹,面向大模型通用性與易用性仍欠缺的難題,通義打造了業界首個AI統一底座,並構建了大小模型協同的層次化人工智能體系,將為AI從感知智能邁向知識驅動的認知智能提供先進基礎設施。
周靖人介紹稱,近年來,大模型表現出前所未有的理解與創造能力,且打破了傳統AI只能處理單一任務的限制,讓人類離通用人工智能的目標近了一步。但大模型在實現全模態和全任務的通用性上仍存在許多技術難點,同時受算力資源限制,其訓練與落地應用頗具挑戰。
2021年,阿里巴巴達摩院先後發佈多個版本的多模態及語言大模型,在超大模型、低碳訓練技術、平台化服務、落地應用等方面實現突破,引領了中文大模型的發展。尤其引發關注的是,達摩院團隊使用512卡V100 GPU即實現10萬億參數大模型M6,同等參數規模能耗僅為此前業界標杆的1%,極大降低了大模型訓練門檻。
今年,阿里巴巴在解決大模型通用性及易用性難題上繼續發力。達摩院副院長周靖人介紹,為了讓大模型更加“融會貫通”,達摩院在國內率先構建了AI統一底座,在業界首次實現模態表示、任務表示、模型結構的統一。
據他介紹,通義統一底座中M6-OFA模型,作為單一模型,在不引入新增結構的情況下,可同時處理圖像描述、視覺定位、文生圖、視覺藴含、文檔摘要等10餘項單模態和跨模態任務,且效果達到國際領先水平。這一突破最大程度打通了AI的感官,受到學界和工業界廣泛關注。近期M6-OFA完成升級後,可處理超過30種跨模態任務。

“大模型模仿了人類構建認知的過程,這是當下我們面臨的重要機遇。通過融合AI在語言、語音、視覺等不同模態和領域的知識體系,我們期望多模態大模型能成為下一代人工智能算法的基石,讓AI從只能使用‘單一感官’到‘五官全開’,且能調用儲備豐富知識的大腦來理解世界和思考,最終實現接近人類水平的認知智能。”周靖人表示。
同時,以統一底座為基礎,達摩院構建了層次化的模型體系,其中通用模型層覆蓋自然語言處理、多模態、計算機視覺,專業模型層深入電商、醫療、法律、金融、娛樂等行業。通用與專業領域大小模型協同,讓通義大模型系列可兼顧性能最優化與低成本落地。為加快大模型規模化應用,達摩院還研發了超大模型落地關鍵技術S4框架,百億參數大模型在壓縮率達99%的情況下多任務精度可接近無損。
據悉,通過部署超大模型及輕量化版本,阿里巴巴通義大模型系列已在超過200個場景中提供服務,實現了2%~10%的應用效果提升。典型使用場景包括電商跨模態搜索、AI輔助設計、開放域人機對話、法律文書學習、醫療文本理解等。
此外,與本次發佈同步,通義大模型系列中語言大模型AliceMind-PLUG、多模態理解與生成統一模型AliceMind-mPLUG、多模態統一底座模型M6-OFA、超大模型落地關鍵技術S4框架等核心模型及能力已面向全球開發者開源,最新文生圖大模型近期將開放體驗。