上海AI企業發佈首個混合架構開源模型

2025-06-23

◎本報記者李均

低成本推理與超長文本理解的創新之門，近日被我國一家AI企業敲開。

6月17日凌晨，總部位於上海的AI獨角獸企業MiniMax（上海稀宇科技有限公司），發佈了自主研發的“全球首個開源的大規模混合架構推理模型”MiniMax-M1（以下簡稱“M1”）。M1支持100萬token（語言中具有獨立意義的最小單位）上下文窗口，訓練成本僅為53.74萬美元，約合380萬元人民幣，其長文本處理、代碼生成等核心性能填補了開源領域長上下文技術的空白，展現出比肩甚至超越業界頂尖模型的實力。

開源“新王”：較低成本訓練出頂尖模型

記者登錄MiniMax自有的App和Web端看到，M1模型保持不限量免費使用。“M1如同用經濟型轎車的成本造出了豪華超跑”“M1是我們眼中的性價比‘新王’”……互聯網上，一些AI行業觀察者給出這樣的評價。

作為國內“AI六小虎”之一的MiniMax，此次發佈的M1大模型何以擁有巨大的成本優勢？資深人工智能專家、高級工程師丁成剛認為，這主要源於企業的兩大技術創新。一是採用閃電注意力機制為主的混合架構，使得模型在計算長上下文輸入以及深度推理時更加高效；二是運用CISPO強化學習算法，優化重要性採樣權重，訓練效率超越其他大模型。得益於CISPO的高效，M1模型的整個強化學習階段僅使用了512塊英偉達H800 GPU，耗時3周，成本僅為53.74萬美元。這一成本顯著低於企業最初的預期。

在進行8萬token的深度推理時，M1所需的算力僅為國內另一款大模型的約30%；生成10萬token時，推理算力只需要另一款大模型的25%。當較低成本訓練出頂尖模型，實現“性能躍升、成本腰斬”的雙重突破，用户再也不用擔心百萬token上下文成為高昂服務，這將為市場提供了一個高性能、低門檻的新選擇。可以預見，M1或將會成為智能體時代的首選開源基座模型。

技術“大考”：架構創新實現性能超越

行業觀察人士認為，面對多個核心生產力場景，M1於同類模型中率先實現了技術突破與架構創新，它的核心競爭力在於將線性注意力與標準Softmax注意力有機融合，形成獨特的“閃電注意力”機制。這一設計讓M1在保持長序列處理效率的同時，解決了純線性注意力在信息檢索上的固有缺陷。

記者瞭解到，MiniMax在業內公認的17個主流評測集上對M1進行了技術“檢閲”。結果顯示，在軟件工程、長上下文理解以及工具使用等複雜且對生產力要求較高的場景中，M1展現出絕對實力。在SWE-bench基準測試裏，M1-40k和M1-80k分別取得55.6%和56.0%的高分。憑藉其百萬級的上下文窗口，M1在長上下文理解任務中具有壓倒性優勢，不僅超越所有開源模型，還在部分指標上接近OpenAI o3和Claude4Opus，在全球範圍內位居第二。

在代理工具使用場景TAU-bench的評測中，M1不僅在所有開源模型中脱穎而出，還戰勝了Gemini-2.5Pro。此外，M1-80k在多數基準測試中的表現都優於M1-40k，表明增加計算資源對提升模型性能有顯著作用。在處理400頁技術文檔或10萬行代碼庫時，傳統模型需反覆切分上下文，而M1可以做到整體消化、連貫推理，為智能體發展提供了開創性範例。

“M1打破了‘算力+資本’的競爭模式，將對全球AI大模型市場產生深遠影響。不過，對於更多AI領域企業來説，要從技術流派轉向市場應用，以解決問題、實現任務為出發點，開拓醫療、健康、旅遊、傳媒等領域垂直類應用場景，才能在AI的規模化應用方面擁有更多想象空間和發展機遇。”資深創投專家、江蘇投資人中心秘書長吳峯認為。