“源1.0”大模型領跑多類綜合語言場景
【環球網科技綜合報道】近日,浪潮“源1.0”大模型登頂中文語言能力理解和生成評測基準CUGE總榜榜首,並獲得語言理解(篇章級)、語言生成、對話交互、多語言、數學推理等5項評測最佳成績。這是繼源1.0攬獲權威中文語言評測基準CLUE榜單的零樣本學習和小樣本學習兩類總榜冠軍後,再次在評測中展現強大實力。
據悉,CUGE(Chinese Language Understanding and Generation Evaluation)智源指數是由清華大學、北京大學、北京智源研究院等高校機構共同建立的中文機器語言能力評測基準,該基準針對當前自然語言處理和人工智能發展新範式,面向具有“通用語言能力”的預訓練模型,全面系統、多層次、多維度地評測大模型能力。
在語言理解(篇章級)評測中,源1.0僅用時11分鐘,便完成數千篇閲讀理解回答4000多個問題,以86.9高分的成績位居榜首,展現出頂尖的語言理解能力。在語言生成評測中,源1.0僅用時70秒,就完成近800條摘要內容的生成,登頂該項榜單。在多語言機器翻譯評測中,基於源1.0大模型蒸餾出來的翻譯模型在完成近4000千對中英文互譯後,登頂榜首,領先第二名15%。在對話交互評測中,基於源1.0大模型蒸餾出來的對話模型回答了電影、音樂、旅行3個領域共近萬個主題對話,成績位居榜首,領先第二名成績30%,展現了極強的智能對話能力。
當前,智能對話普遍存在內容乏味、主題不連貫等問題,往往幾輪對話後,回答便空洞重複,大大降低用户體驗。知識驅動的對話模型直接連接到廣泛的知識庫,大大增加對話內容的豐富度,在一定知識背景下也不會偏題,更趨向於人類之間的交談。不久前,源開發者社區的一位開發者基於源的對話模型創建了一位能與人類玩劇本殺的AI虛擬玩家,一位人類玩家與AI虛擬玩家聊天到深夜凌晨仍興趣盎然。以知識驅動的對話模型,可廣泛應用於各類虛擬人、智能助手、智能客服等場景,並極大提升對話的智能水平和用户體驗。
目前,浪潮“源1.0”已經將模型API、高質量數據集、模型訓練代碼、推理代碼和應用代碼等等工具和能力開源開放,超過300家行業用户和開發者,通過“源1.0”提供的數據和API顯著提升了金融、互聯網、醫療和自動駕駛等行業應用的精度。浪潮源1.0將持續助力行業用户和開發者,攜手推動技術創新、場景融合、應用開發,共同促進大模型的健康發展與產業落地,加速AI產業化和產業AI化發展。