DeepSeek-Math-V2数学模型开源,成绩碾压OpenAI和谷歌同类模型
12月1日消息,近日, DeepSeek在Hugging Face平台正式开源了DeepSeek-Math-V2模型,这是全球首个达到国际数学奥林匹克竞赛金牌水平的开源数学模型。该模型基于DeepSeek-V3.2-Exp-Base开发。
DeepSeek-Math-V2模型在国际数学奥林匹克IMO 2025模拟赛中解出5道题(共6题),在中国数学奥林匹克CMO 2024中获得金牌级评价,更在被誉为“地狱难度”的普特南(Putnam)数学竞赛2024中取得了118/120的接近满分成绩,远超人类最高分90分。
“鲸鱼回来了!” 这是AI开源社区在DeepSeek发布新模型后的热烈反应。
两大创新,成绩碾压GPT-5-Thinking-High和Gemini 2.5-Pro
根据DeepSeek团队发布的论文,DeepSeekMath-V2的核心突破在于成功实现了“自我验证”的数学推理机制。
传统的AI数学推理训练存在根本性局限——模型奖励基于最终答案的正确性,但这并不能保证推理过程的正确性或逻辑的严谨性。
DeepSeek研究人员在论文中明确指出:“正确答案并不保证推理过程正确”。
这种结果导向的训练方式,导致模型可能通过错误的逻辑得出正确答案,成为“自信的骗子”。
DeepSeekMath-V2彻底改变了这一模式,转向过程导向的训练方法。它不依赖大量的数学题答案数据,而是教会AI如何像数学家一样严谨地审查证明过程。
这种方法模拟了人类数学家的思考方式:写几步之后,停下来反思,发现漏洞就推翻重写,直到自己挑不出毛病为止。
另一个大核心创新则是DeepSeekMath-V2构建了一个多层次自我验证系统。
该系统由三个关键角色组成,形成了一个相互协作又相互制约的架构。
“做题家”(证明生成器) 负责解题和撰写证明过程。与以往不同,它被训练成不仅要写答案,还要进行“自我评价”,诚实指出自己可能出错的地方。
“铁面判官”(证明验证器) 是专门训练的评分模型,它不看答案对错,而是专门盯着证明过程挑刺。它将证明分为三个等级:1分(完全正确)、0.5分(有小瑕疵)、0分(有致命错误)。
“判官的审计员”(元验证器) 是最绝的一步,它专门检查验证器是否在胡乱挑刺。如果验证器指出了一个不存在的错误,它会被元验证器纠正。
通过这种精巧的架构,DeepSeekMath-V2实现了真正的自我反思能力。
模型不再盲目相信自己的第一直觉,而是学会了怀疑、审视和批判性思维。
根据论文公开的数据,DeepSeekMath-V2在多项数学基准测试中展现出统治级的实力。
在IMO-ProofBench基准测试中,DeepSeekMath-V2在Basic子集上获得了接近99%的惊人高分,显著高于Gemini Deep Think的89%。
在更高级的Advanced子集上,DeepSeekMath-V2得分为61.9%,略低于Gemini Deep Think的65.7%,但仍展现出强大的竞争力。
在与顶级模型的直接对比中,DeepSeekMath-V2在所有CNML级别问题类别上,包括代数、几何、数论、组合学和不等式均持续优于GPT-5-Thinking-High和Gemini 2.5-Pro。
在代数领域,DeepSeekMath-V2远超GPT-5-Thinking-High和Gemini 2.5-Pro;在几何领域,其得分几乎是Gemini 2.5-Pro的三倍。
更令人印象深刻的是,当允许模型进行“自我验证”,即生成答案后,自己挑毛病,然后带着问题重新生成,证明的质量分数从初始的0.15(迭代1次)飙升到了0.27(迭代8次)。
开源社区沸腾
DeepSeekMath-V2的开源发布,在AI社区引发了强烈反响。
海外社区有评论称“鲸鱼终于回来了”,并指出DeepSeek以约10个百分点优势超越谷歌同类模型,超出预期。
在技术社区,用户用更通俗的语言解读这一突破:“DeepSeek换了个教法,死磕过程。结果对了,也必须看解题步骤,过程中只要有一步没整明白,也不给糖吃。这就逼着AI必须要真懂,不能当混子。”
还有用户指出这一发布的时间点堪称完美:“就在昨天,AI教父Ilya在访谈中提到,现在的AI就是个只会死记硬背的做题机器。仅仅不到24小时,DeepSeek就把新模型开源了。”
这一巧合被形容为“一次穿越时空的击掌”,是DeepSeek对AI发展路径的实质性回应。
不过,也有用户提出了理性的担忧:“自我纠错这套路,说得轻松其实难度不小啊,验证器要是本身就有问题呢?左手批右手的感觉。”
无论如何,大家都认为DeepSeekMath-V2的开源具有重要的行业意义。
DeepSeekMath-V2采用Apache 2.0许可证,允许修改、重新用途和本地部署,为学术研究和商业应用提供了极大便利。
这一开源降低了全球研究者的门槛,特别是在当前谷歌和OpenAI都将他们的高分数学模型严格限制在付费或实验性访问。
DeepSeekMath-V2的开源发布标志着AI数学推理能力不再是大公司的专属领域,而是成为全球研究者可以共同探索和推进的开放领域。
Hugging Face联合创始人兼Clement Delangue表示:这一发布是迈向AI真正民主化的一步。
用户现在可以免费使用“世界上最好的数学家之一的大脑”,而不必担心公司或政府将其收回。
国内AI产品首轮变革完成,美图公司应用落地能力受行业关注
4月16日,量子位智库发布2025中国AIGC应用全景图谱,呈现中国AIGC应用现状及趋势,图谱中既有字节、腾讯等头部大厂,也有DeepSeek这样的行业冠军。作为近两年的明星AI公司,美图公司旗下多款AI产品入选,美图秀秀、...
315晚会曝光骚扰电话产业链:滥用AI外呼机器人在央视315晚会上,第七个被曝光的行业乱象直指骚扰电话产业链,揭露了AI外呼机器人在其中的角色。据报道,过去一年多来,互联网上涌现出众多“外呼”业务广告,这些公司的主要业务是协助商家向手机用户拨打营销电话...
传微软准备明年春季发布全新Surface产品,AI是核心卖点12月29日消息,消息人士称,微软正在对SurfacePro和SurfaceLaptop系列产品进行重大升级。这次升级不仅改进了外观设计,还增加了人工智能等新功能,采用了定制版高通骁龙X等新一代芯片。近几个月对Surface粉丝来说颇...
戴尔AI智能解决方案中心深圳揭幕11月5日消息,戴尔科技集团今日宣布在深圳成立戴尔AI智能解决方案中心,旨在打通AI全生态,助力企业在AI时代构筑核心竞争优势。依托戴尔科技在IT全栈部署方面的深厚实力,戴尔AI智能解决方案中心将立足深圳,面向大...
「一个人就成为一只营销队伍」 百度发布AI Native商业全景应用10月18日消息,“百度世界2023”上,百度创始人、董事长兼首席执行官李彦宏进行一小时的主题演讲,“手把手教你做AI原生应用”,发布文心大模型4.0版本,并带来新搜索、新文库、AIGC营销产品擎舵等十余款AI原生应用...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...