DeepSeek-Math-V2数学模型开源，成绩碾压OpenAI和谷歌同类模型-AI资讯-资讯-创佳网

12月1日消息，近日， DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型，这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。

DeepSeek-Math-V2模型在国际数学奥林匹克IMO 2025模拟赛中解出5道题（共6题），在中国数学奥林匹克CMO 2024中获得金牌级评价，更在被誉为“地狱难度”的普特南(Putnam)数学竞赛2024中取得了118/120的接近满分成绩，远超人类最高分90分。

“鲸鱼回来了！” 这是AI开源社区在DeepSeek发布新模型后的热烈反应。

两大创新，成绩碾压GPT-5-Thinking-High和Gemini 2.5-Pro

根据DeepSeek团队发布的论文，DeepSeekMath-V2的核心突破在于成功实现了“自我验证”的数学推理机制。

传统的AI数学推理训练存在根本性局限——模型奖励基于最终答案的正确性，但这并不能保证推理过程的正确性或逻辑的严谨性。

DeepSeek研究人员在论文中明确指出：“正确答案并不保证推理过程正确”。

这种结果导向的训练方式，导致模型可能通过错误的逻辑得出正确答案，成为“自信的骗子”。

DeepSeekMath-V2彻底改变了这一模式，转向过程导向的训练方法。它不依赖大量的数学题答案数据，而是教会AI如何像数学家一样严谨地审查证明过程。

这种方法模拟了人类数学家的思考方式：写几步之后，停下来反思，发现漏洞就推翻重写，直到自己挑不出毛病为止。

另一个大核心创新则是DeepSeekMath-V2构建了一个多层次自我验证系统。

该系统由三个关键角色组成，形成了一个相互协作又相互制约的架构。

“做题家”（证明生成器）负责解题和撰写证明过程。与以往不同，它被训练成不仅要写答案，还要进行“自我评价”，诚实指出自己可能出错的地方。

“铁面判官”（证明验证器）是专门训练的评分模型，它不看答案对错，而是专门盯着证明过程挑刺。它将证明分为三个等级：1分（完全正确）、0.5分（有小瑕疵）、0分（有致命错误）。

“判官的审计员”（元验证器）是最绝的一步，它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误，它会被元验证器纠正。

通过这种精巧的架构，DeepSeekMath-V2实现了真正的自我反思能力。

模型不再盲目相信自己的第一直觉，而是学会了怀疑、审视和批判性思维。

根据论文公开的数据，DeepSeekMath-V2在多项数学基准测试中展现出统治级的实力。

在IMO-ProofBench基准测试中，DeepSeekMath-V2在Basic子集上获得了接近99%的惊人高分，显著高于Gemini Deep Think的89%。

在更高级的Advanced子集上，DeepSeekMath-V2得分为61.9%，略低于Gemini Deep Think的65.7%，但仍展现出强大的竞争力。

在与顶级模型的直接对比中，DeepSeekMath-V2在所有CNML级别问题类别上，包括代数、几何、数论、组合学和不等式均持续优于GPT-5-Thinking-High和Gemini 2.5-Pro。

在代数领域，DeepSeekMath-V2远超GPT-5-Thinking-High和Gemini 2.5-Pro；在几何领域，其得分几乎是Gemini 2.5-Pro的三倍。

更令人印象深刻的是，当允许模型进行“自我验证”，即生成答案后，自己挑毛病，然后带着问题重新生成，证明的质量分数从初始的0.15（迭代1次）飙升到了0.27（迭代8次）。

开源社区沸腾

DeepSeekMath-V2的开源发布，在AI社区引发了强烈反响。

海外社区有评论称“鲸鱼终于回来了”，并指出DeepSeek以约10个百分点优势超越谷歌同类模型，超出预期。

在技术社区，用户用更通俗的语言解读这一突破：“DeepSeek换了个教法，死磕过程。结果对了，也必须看解题步骤，过程中只要有一步没整明白，也不给糖吃。这就逼着AI必须要真懂，不能当混子。”

还有用户指出这一发布的时间点堪称完美：“就在昨天，AI教父Ilya在访谈中提到，现在的AI就是个只会死记硬背的做题机器。仅仅不到24小时，DeepSeek就把新模型开源了。”

这一巧合被形容为“一次穿越时空的击掌”，是DeepSeek对AI发展路径的实质性回应。

不过，也有用户提出了理性的担忧：“自我纠错这套路，说得轻松其实难度不小啊，验证器要是本身就有问题呢？左手批右手的感觉。”

无论如何，大家都认为DeepSeekMath-V2的开源具有重要的行业意义。

DeepSeekMath-V2采用Apache 2.0许可证，允许修改、重新用途和本地部署，为学术研究和商业应用提供了极大便利。

这一开源降低了全球研究者的门槛，特别是在当前谷歌和OpenAI都将他们的高分数学模型严格限制在付费或实验性访问。

DeepSeekMath-V2的开源发布标志着AI数学推理能力不再是大公司的专属领域，而是成为全球研究者可以共同探索和推进的开放领域。

Hugging Face联合创始人兼Clement Delangue表示：这一发布是迈向AI真正民主化的一步。

用户现在可以免费使用“世界上最好的数学家之一的大脑”，而不必担心公司或政府将其收回。

国内AI产品首轮变革完成，美图公司应用落地能力受行业关注

4月16日，量子位智库发布2025中国AIGC应用全景图谱，呈现中国AIGC应用现状及趋势，图谱中既有字节、腾讯等头部大厂，也有DeepSeek这样的行业冠军。作为近两年的明星AI公司，美图公司旗下多款AI产品入选，美图秀秀、...

315晚会曝光骚扰电话产业链：滥用AI外呼机器人

在央视315晚会上，第七个被曝光的行业乱象直指骚扰电话产业链，揭露了AI外呼机器人在其中的角色。据报道，过去一年多来，互联网上涌现出众多“外呼”业务广告，这些公司的主要业务是协助商家向手机用户拨打营销电话...

传微软准备明年春季发布全新Surface产品，AI是核心卖点

12月29日消息，消息人士称，微软正在对SurfacePro和SurfaceLaptop系列产品进行重大升级。这次升级不仅改进了外观设计，还增加了人工智能等新功能，采用了定制版高通骁龙X等新一代芯片。近几个月对Surface粉丝来说颇...

戴尔AI智能解决方案中心深圳揭幕

11月5日消息，戴尔科技集团今日宣布在深圳成立戴尔AI智能解决方案中心，旨在打通AI全生态，助力企业在AI时代构筑核心竞争优势。依托戴尔科技在IT全栈部署方面的深厚实力，戴尔AI智能解决方案中心将立足深圳，面向大...

「一个人就成为一只营销队伍」百度发布AI Native商业全景应用

10月18日消息，“百度世界2023”上，百度创始人、董事长兼首席执行官李彦宏进行一小时的主题演讲，“手把手教你做AI原生应用”，发布文心大模型4.0版本，并带来新搜索、新文库、AIGC营销产品擎舵等十余款AI原生应用...

DeepSeek-Math-V2数学模型开源，成绩碾压OpenAI和谷歌同类模型

如何选购kawai电钢琴？？2023年kawai选购攻略大全来了！

苹果招募生成式AI人才提供数十个大模型岗位

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

创始人王慧文退出美团成AI公司光年之外唯一股东

DeepSeek-Math-V2数学模型开源，成绩碾压OpenAI和谷歌同类模型

如何选购kawai电钢琴？？2023年kawai选购攻略大全来了！

苹果招募生成式AI人才 提供数十个大模型岗位

昆仑万维旗下Opera生成式AI服务海外用户数突破100万

创始人王慧文退出 美团成AI公司光年之外唯一股东

苹果招募生成式AI人才提供数十个大模型岗位

创始人王慧文退出美团成AI公司光年之外唯一股东