美團發佈並開源高效推理模型LongCat-Flash-Thinking

刘媛媛

2025-09-22

9月22日，美團LongCat團隊正式發佈全新高效推理模型LongCat-Flash-Thinking。此前的9月1日，美團曾發佈首個大模型LongCat-Flash-Chat。官方稱，在保持了LongCat-Flash-Chat極致速度的同時，此次全新發布的LongCat-Flash-Thinking更強大、更專業。

綜合評分顯示，LongCat-Flash-Thinking 在邏輯、數學、代碼、智能體等多個領域的推理任務中，達到了全球開源模型的先進水平（SOTA），部分任務性能接近閉源模型GPT5-Thinking。

具體來看，在通用推理能力方面，LongCat-Flash-Thinking在ARC-AGI基準測試中以50.3分超越OpenAI o3、Gemini2.5 Pro等頂尖閉源模型。在HMMT和AIME相關基準測試中，超越OpenAI o3，和Qwen3-235B-A22B-Thinking等領水平相當。

在LiveCodeBench上，LongCat-Flash-Thinking以79.4分超越參與評估的開源模型，並與閉源模型GPT-5表現相當。在OJBench基準測試中也以40.7的得分接近Gemini2.5-Pro的水平。

智能體能力方面，LongCat-Flash-Thinking 在τ2-Bench上以74.0分刷新開源SOTA成績，並在包括SWE-Bench、BFCL V3和VitaBench等基準測試中展現出競爭力。

同時，LongCat-Flash-Thinking還擴展了形式化定理證明能力，被認為是國內首個同時具備「深度思考+工具調用」與「非形式化+形式化」推理能力相結合的大語言模型。

目前， LongCat-Flash-Thinking已在HuggingFace、Github全面開源，並在官網可體驗。

值得一提的是，此前有媒體爆料稱，LongCat-Flash最大的亮點是其訓練並非在英偉達GPU上完成，而是在國產加速卡上進行。但由於一些原因，真正的硬件廠商具體名字不方便透露。對此，官方未公開回應。

本文系觀察者網獨家稿件，未經授權，不得轉載。