美團發佈並開源高效推理模型LongCat-Flash-Thinking
刘媛媛

9月22日,美團LongCat團隊正式發佈全新高效推理模型LongCat-Flash-Thinking。此前的9月1日,美團曾發佈首個大模型LongCat-Flash-Chat。官方稱,在保持了LongCat-Flash-Chat極致速度的同時,此次全新發布的LongCat-Flash-Thinking更強大、更專業。
綜合評分顯示,LongCat-Flash-Thinking 在邏輯、數學、代碼、智能體等多個領域的推理任務中,達到了全球開源模型的先進水平(SOTA),部分任務性能接近閉源模型GPT5-Thinking。
具體來看,在通用推理能力方面,LongCat-Flash-Thinking在ARC-AGI基準測試中以50.3分超越OpenAI o3、Gemini2.5 Pro等頂尖閉源模型。在HMMT和AIME相關基準測試中,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等領水平相當。
在LiveCodeBench上,LongCat-Flash-Thinking以79.4分超越參與評估的開源模型,並與閉源模型GPT-5表現相當。在OJBench基準測試中也以40.7的得分接近Gemini2.5-Pro的水平。
智能體能力方面,LongCat-Flash-Thinking 在τ2-Bench上以74.0分刷新開源SOTA成績,並在包括SWE-Bench、BFCL V3和VitaBench等基準測試中展現出競爭力。
同時,LongCat-Flash-Thinking還擴展了形式化定理證明能力,被認為是國內首個同時具備「深度思考+工具調用」與「非形式化+形式化」推理能力相結合的大語言模型。
目前, LongCat-Flash-Thinking已在HuggingFace、Github全面開源,並在官網可體驗。
值得一提的是,此前有媒體爆料稱,LongCat-Flash最大的亮點是其訓練並非在英偉達GPU上完成,而是在國產加速卡上進行。但由於一些原因,真正的硬件廠商具體名字不方便透露。對此,官方未公開回應。
本文系觀察者網獨家稿件,未經授權,不得轉載。