美团发布高效推理模型LongCat-Flash-Thinking:部分性能接近GPT5

mengran2025-09-23 09:49:48快科技

9月23日消息,美团LongCat团队正式发布全新高效推理模型——LongCat-Flash-Thinking。

在保持了LongCat-Flash-Chat极致速度的同时,全新发布的LongCat-Flash-Thinking更强大、更专业。

综合评估显示,LongCat-Flash-Thinking在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的最先进水平(SOTA),部分任务性能接近闭源模型GPT5-Thinking。

同时,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型。

该团队还表示,尤其在高复杂度的任务(如数学、代码、智能体任务)处理上,新模型具备显著优势。

具体表现如下:

通用推理能力:LongCat-Flash-Thinking具备卓越的通用推理能力,尤其在需要结构化逻辑的任务中表现突出。其在ARC-AGI基准测试中以50.3分超越OpenAI o3、Gemini2.5 Pro等顶尖闭源模型。

数学能力:LongCat-Flash-Thinking在数学推理方面展现出强大实力,跻身当前顶尖模型行列。在更具挑战性的基准测试中优势更加明显——在HMMT和AIME相关基准上取得突破性成绩,超越OpenAI o3,和Qwen3-235B-A22B-Thinking等领先模型水平相当。这些结果印证了其解决复杂、多步骤问题的领先能力。

代码能力:在编程领域,LongCat-Flash-Thinking展现出开源模型最先进的性能(SOTA)与综合实力。在LiveCodeBench上以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当,证明其解决高难度编程竞赛问题的卓越能力。在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平。

智能体能力:LongCat-Flash-Thinking在复杂的、工具增强型推理(Tool-augmented Reasoning)方面表现突出,在智能体工具调用(Agentic Tool Use)上展现出强劲能力。其在τ2-Bench上以74.0分刷新开源SOTA成绩,并在包括SWE-Bench、BFCL V3和VitaBench等基准测试中展现出超强竞争力。

ATP形式推理能力:LongCat-Flash-Thinking在MiniF2F-test基准中的pass@1获得67.6的分数,大幅领先所有其他参与评估的模型,在pass@8和pass@32中同样保持了领先优势,凸显其在生成结构化证明和形式化数学推理方面的绝对优势。

目前,LongCat-Flash-Thinking已在HuggingFace、Github全面开源,并在官网可体验。(建嘉)

iPhone内置Gemini AI?消息称苹果正与谷歌谈判合作

IT之家3月18日消息,据彭博社报道,知情人士透露,苹果公司就在iPhone中内置谷歌Gemini人工智能引擎进行谈判,为达成一项将震撼AI行业的重磅协议奠定了基础。知情人士表示,两家公司正在积极谈判,以允许苹果授权谷...

也许百度该考虑改个名字了

2017年,美国CNBC(ConsumerNewsandBusinessChannel)金融分析师JimCramer提出了FANG概念股,也就是Facebook、Amazon、Netflix和Google,它们当时代表了美国最领先的几家科技公司。不料短短几年光阴,到了2023年初,...

AI加持,海信旗下Vidda发布X Ultra系列AI电视和C2系列三色激光投影

5月9日消息,海信旗下年轻科技潮牌Vidda正式发布三色激光智能投影新品“全家桶”C2系列,并推出AIMiniLED电视新品XUltra系列和两款自研AI美声麦克风V3、V7。资料显示,2023年,Vidda电视在国内线上市场的量占有率近1...

谷歌 Gemini 向免费版用户开放“全局记忆”功能,可令 AI 回忆曾经所有对话

IT之家3月1日消息,谷歌宣布旗下GeminiAI免费用户现也已支持“全局记忆”功能,也就是AI目前记得用户曾经与其进行过的所有对话,号称可以为用户提供更加私人化的回复,此前该功能仅向GeminiAdvanced付费用户提供。谷...

谷歌Gemini宣布上线全局记忆功能:可回忆曾经所有对话

2月14日消息,据报道,谷歌正式宣布其人工智能平台GeminiAI上线了一项备受期待的“全局记忆”功能。此创新功能赋予GeminiAI前所未有的能力,能够全面记录并存储用户与其之间的所有过往对话。借助全局记忆,用户在与A...

TAG:AI 美团
上一篇:2025新域新质创新大赛收官 72项获奖项目揭晓
下一篇:宇树科技王兴兴:明年机器人有望做特技演员