我的征尘是星辰大海。。。
The dirt and dust from my pilgrimage forms oceans of stars...
-------当记忆的篇章变得零碎,当追忆的图片变得模糊,我们只能求助于数字存储的永恒的回忆
作者:黄教授
手机视频列表
从师生互动到数据飞轮DeepSeek-Math-V2开源背后的AI数学推理革命
视频
音频
原始脚本
从师生互动到数据飞轮,Deepseek Math V2开源背后的 AI 数学推理革命。 2025年11月28日,Deepseek 正式开源全球首个达到国际奥林匹克数学竞赛 IMO 金牌水平的 AI 模型 Deepseek Math V2,这一突破性成果在开源社区 引发震动,他不仅在 IMO 2025、CMO 2024等顶级竞赛中斩获金牌,更将硅谷大厂秘而不宣的自验证架构彻底公开。 距离其开源仅过去三天,我们第一时间深度拆解这套模型的核心逻辑,揭秘他如何用学生、老师、教委的拟人化设计,破解数学推理领域的核心痛点。 当我们在数学考试中反复自查却找不到错题,当老师总能一眼看穿我们的逻辑漏洞,当人工标注高质量数学证明数据成本高到难以承受,Deepseek Math V2的出现,恰恰用一套学生、老师、教委的拟人化架构,完美解决了这些痛点。 更难能可贵的是 他将硅谷大厂藏在身后的先进思路彻底开源,为全人类的 AI 进步注入了开源力量。 一、技术本质,模拟师生互动的分境合机策略,Deepseek MASS V2的核心设计源于对人类认知规律的深刻洞察。 就像优秀的老师既要会解题,更要懂学生易错点。 单一模型难以兼顾解题的发散性与判错的严谨性。 因此他采用了三角色分拆训练,再融合贯通的策略。 做题家、生成器,像学生一样专注解题,生成完整的数 学证明过程,同时具备初步的自我评价能力。 就像我们做完题后自己检查草稿。 阅卷老师验证器,专注挑错打分,逐行审查证明的逻辑漏洞,给出0全错、0.5思路对待细节错、1全对的评分,如同老师批改作业时精准标记错误。 教委、原验证器、监督阅卷老师的判卷质量,纠正其误判或模糊打分,确保评分标准不偏离数学规范,就像教委审核老师的判卷结果。 这三个角色均以 Deepseek V 3为统一基座,先分开学,各自强化专属能力,再通过闭环迭代 实现融会贯通,最终让单个模型兼具解题、判错、复合三重能力。 这种设计完美解释了为什么自己查不出错题。 解题时的固有思路会形成认知盲区,而独立的验证角色能从全新视角发现问题,就像我们总需要老师来批改作业一样。 二、核心创新,解决高质量数据稀缺的数据飞轮数学证明的高质量数据向来一寸难求。 人工生成一道严谨证明可能需要一两天,标注错误更是耗时耗力,而自动生成的数据又容易出现一错致命的问题。 Deepseek MASS V2的数据飞轮机 制,精准破解了这三大痛点。 一、自动化数据生成,由做题家持续产出海量证明,替代人工出题,解决数据量不足的问题。 二、双重验证过滤错误,阅卷老师先对证明打分,有争议的0。 5分案例再由多个老师分身投票,最后较为把关,确保进入训练的数据99%以上是正确的,避免模型被错误数据训歪。 三,人工反馈精准赋能,人类仅需聚焦0。 5分的争议案例,这些思路对但细节错的题目是最有价值的学习素材。 就像老师只重点讲解差一点就对的错题。 一次人工点播,能同时让做题家学会修正错误,阅卷老师掌握评分尺度,较为优化复合逻辑,实现一次人工三方受益。 这种设计让有限的人工成本发挥最大价值,形成生成、验证、复合、迭代的自驱动飞轮,彻底摆脱了对海 海量人工标注数据的依赖。 补充数据飞轮的启动逻辑与角色固化的必然性数据飞轮的运转并非无中生有,而是以 Deepseek V3基座的基础推理能力为起点。 它能做数学证明,但精度不足,逻辑漏洞多,就像一个会做题但常出错的学生。 传统 R L H F 的做法是,让这个学生做上千道题,人类专家逐一批改标注哪里错了,再用这些数据微调模型参数,过程缓慢且昂贵。 这就像老师熬夜批改的作业,学生只看分数,不看评语。 老师的心血仅转化为学生下次少错几道题,却没教会学生怎么自查,没沉淀老师怎么找错的能力。 而 Deepseek MASS V2的突破在于,他意识到人类专家的批改劳动不仅是调参信号,更蕴含两大核心能力,找出错误的能力和判断纠错是否准确的能力。 这些能力远比单次调参更有价值。 就像老师批改作业时,为什么能发现学生的逻辑漏洞?比如这里漏了全等判定的条件,这种判错经验本身就值得被固化。 当多个老师对同一道题有争议时,人类专家的最终复合,比如这种思路虽不常规,但逻辑成立应给0.8分,这种更高 高维度的判断能力同样值得沉淀。 因此,阅卷老师验证器的出现,是将人类找错打分的能力固化为模型。 教委原验证器的诞生,则是将人类复合纠错的能力进一步固化。 这并非刻意设计的三层结构,而是数据飞轮迭代中的自然需求。 当老师自动批改时,难免出现误判,需要更高维度的监督。 而人类对老师误判的修正,本身就是一种宝贵的训练数据,自然催生了教委角色。 整个过程的核心逻辑是人类的每一次高质量劳动都不应只作为一次性调参素材,而应被转化为可复用的模型能力。 从学生生成器到老师验证器 再到教委原验证器,本质是把人类在数学证明中的解题、判错、复合能力层层固化,最终形成无需持续人工干预的自动化闭环。 这正是数据飞轮能高效运转的根本,也是大模型训练从依赖人工投喂到自主能力进化的关键跨越。 三、开源价值,打破大厂垄断的 AI 普惠之光,值得强调的是,将人类监督能力固化为独立模型的思路并非 Deepseek 首创。 硅谷大厂早已在论文中披露类似逻辑,谷歌 DeepMind 的 EVA 框架、OpenAI 的 RLLHF 奖励模型,本质上都是对这一 思路的探索。 但这些大厂始终将核心验证模块藏在身后,仅公开思路却不开放代码,靠技术壁垒赚取超额利润。 Deepseek Maas V2的真正可贵之处在于它将这套完整的三角色加数据飞轮机制彻底开源,从模型权重、训练代码到复现指 难,全部在 GitHub 和 Hugging Face 公开,让中小企业、学界研究者无需重复投入高昂的研发成本,就能直接复用这套顶尖的数学推理能力。 这种开源精神打破了大厂对核心 AI 技术的垄断,让全人类都能参与到 AI 数学推理的创新中,这才是对人类文明进步最有价值的贡献。 四、性能印证开源不代表降级,Deepseek MAS V2的开源绝非气质垃圾,而是具备顶尖竞争 力的硬核成果。 他在 IMO 2025破解5道题,共6题。 CMO2024均达成金牌水准。 Putnam2024更是拿下满分120的118分,远超人类历史最高分。 在 IMO proof bench 基础子集上,以近99%的高分 领先谷歌,Gemini DeepMind,成为开源领域数学推理的标杆。 结语,技术向善的本质是开源共享,从师生互动的认知逻辑,到数据飞轮的效率革命,再到开源共享的普惠精神。 DeepMind Math VR 不仅展示了 AI 数学推理的技术高度,更诠释了技术向善的真正含义。 当硅谷大厂执着于技术垄断和超额利润。 时 Deepseek 用开源证明,只有让全人类共同参与 AI 创新,才能推动文明的真正进步。 就像我们今天分享这些思考一样,开放与共享才是 AI 时代最宝贵的财富。
修正脚本
从师生互动到数据飞轮,Deepseek Math V2开源背后的 AI 数学推理革命。 2025年11月28日,Deepseek 正式开源全球首个达到国际奥林匹克数学竞赛 IMO 金牌水平的 AI 模型 Deepseek Math V2,这一突破性成果在开源社区 引发震动,它不仅在 IMO 2025、CMO 2024等顶级竞赛中斩获金牌,更将硅谷大厂秘而不宣的自验证架构彻底公开。 距离其开源仅过去三天,我们第一时间深度拆解这套模型的核心逻辑,揭秘它如何用学生、老师、教委的拟人化设计,破解数学推理领域的核心痛点。 当我们在数学考试中反复自查却找不到错题,当老师总能一眼看穿我们的逻辑漏洞,当人工标注高质量数学证明数据成本高到难以承受,Deepseek Math V2的出现,恰恰用一套学生、老师、教委的拟人化架构,完美解决了这些痛点。 更难能可贵的是 它将硅谷大厂藏在身后的先进思路彻底开源,为全人类的 AI 进步注入了开源力量。 一、技术本质,模拟师生互动的分合有机策略,Deepseek Math V2的核心设计源于对人类认知规律的深刻洞察。 就像优秀的老师既要会解题,更要懂学生易错点。 单一模型难以兼顾解题的发散性与判错的严谨性。 因此它采用了三角色分拆训练,再融合贯通的策略。 做题家、生成器,像学生一样专注解题,生成完整的数学证明过程,同时具备初步的自我评价能力。 就像我们做完题后自己检查草稿。 阅卷老师验证器,专注挑错打分,逐行审查证明的逻辑漏洞,给出0全错、0.5思路对细节错、1全对的评分,如同老师批改作业时精准标记错误。 教委、原验证器,监督阅卷老师的判卷质量,纠正其误判或模糊打分,确保评分标准不偏离数学规范,就像教委审核老师的判卷结果。 这三个角色均以 Deepseek V3为统一基座,先分开学,各自强化专属能力,再通过闭环迭代 实现融会贯通,最终让单个模型兼具解题、判错、复核三重能力。 这种设计完美解释了为什么自己查不出错题。 解题时的固有思路会形成认知盲区,而独立的验证角色能从全新视角发现问题,就像我们总需要老师来批改作业一样。 二、核心创新,解决高质量数据稀缺的数据飞轮数学证明的高质量数据向来一寸难求。 人工生成一道严谨证明可能需要一两天,标注错误更是耗时耗力,而自动生成的数据又容易出现一错致命的问题。 Deepseek Math V2的飞轮机制,精准破解了这三大痛点。 一、自动化数据生成,由做题家持续产出海量证明,替代人工出题,解决数据量不足的问题。 二、双重验证过滤错误,阅卷老师先对证明打分,有争议的0.5分案例再由多个老师分身投票,最后教委把关,确保进入训练的数据99%以上是正确的,避免模型被错误数据训歪。 三、人工反馈精准赋能,人类仅需聚焦0.5分的争议案例,这些思路对但细节错的题目是最有价值的学习素材。 就像老师只重点讲解差一点就对的错题。 一次人工点拨,能同时让做题家学会修正错误,阅卷老师掌握评分尺度,教委优化复核逻辑,实现一次人工三方受益。 这种设计让有限的人工成本发挥最大价值,形成生成、验证、复核、迭代的自驱动飞轮,彻底摆脱了对海量人工标注数据的依赖。 补充数据飞轮的启动逻辑与角色固化的必然性数据飞轮的运转并非无中生有,而是以 Deepseek V3基座的基础推理能力为起点。 它能做数学证明,但精度不足,逻辑漏洞多,就像一个会做题但常出错的学生。 传统 R L H F 的做法是,让这个学生做上千道题,人类专家逐一批改标注哪里错了,再用这些数据微调模型参数,过程缓慢且昂贵。 这就像老师熬夜批改的作业,学生只看分数,不看评语。 老师的心血仅转化为学生下次少错几道题,却没教会学生怎么自查,没沉淀老师怎么找错的能力。 而 Deepseek Math V2的突破在于,它意识到人类专家的批改劳动不仅是调参信号,更蕴含两大核心能力,找出错误的能力和判断纠错是否准确的能力。 这些能力远比单次调参更有价值。 就像老师批改作业时,为什么能发现学生的逻辑漏洞?比如这里漏了全等判定的条件,这种判错经验本身就值得被固化。 当多个老师对同一道题有争议时,人类专家的最终复核,比如这种思路虽不常规,但逻辑成立应给0.8分,这种更高维度的判断能力同样值得沉淀。 因此,阅卷老师验证器的出现,是将人类找错打分的能力固化为模型。 教委原验证器的诞生,则是将人类复核纠错的能力进一步固化。 这并非刻意设计的三层结构,而是数据飞轮迭代中的自然需求。 当老师自动批改时,难免出现误判,需要更高维度的监督。 而人类对老师误判的修正,本身就是一种宝贵的训练数据,自然催生了教委角色。 整个过程的核心逻辑是人类的每一次高质量劳动都不应只作为一次性调参素材,而应被转化为可复用的模型能力。 从学生生成器到老师验证器再到教委原验证器,本质是把人类在数学证明中的解题、判错、复核能力层层固化,最终形成无需持续人工干预的自动化闭环。 这正是数据飞轮能高效运转的根本,也是大模型训练从依赖人工投喂到自主能力进化的关键跨越。 三、开源价值,打破大厂垄断的 AI 普惠之光,值得强调的是,将人类监督能力固化为独立模型的思路并非 Deepseek 首创。 硅谷大厂早已在论文中披露类似逻辑,谷歌 DeepMind 的 EVA 框架、OpenAI 的 RLLHF 奖励模型,本质上都是对这一思路的探索。 但这些大厂始终将核心验证模块藏在身后,仅公开思路却不开放代码,靠技术壁垒赚取超额利润。 Deepseek Math V2的真正可贵之处在于它将这套完整的三角色加数据飞轮机制彻底开源,从模型权重、训练代码到复现指南,全部在 GitHub 和 Hugging Face 公开,让中小企业、学界研究者无需重复投入高昂的研发成本,就能直接复用这套顶尖的数学推理能力。 这种开源精神打破了大厂对核心 AI 技术的垄断,让全人类都能参与到 AI 数学推理的创新中,这才是对人类文明进步最有价值的贡献。 四、性能印证开源不代表降级,Deepseek Math V2的开源绝非弃置垃圾,而是具备顶尖竞争力的硬核成果。 它在 IMO 2025破解5道题,共6题。 CMO2024均达成金牌水准。 Putnam2024更是拿下满分120的118分,远超人类历史最高分。 在 IMO proof bench 基础子集上,以近99%的高分领先谷歌,Gemini DeepMind,成为开源领域数学推理的标杆。 结语,技术向善的本质是开源共享,从师生互动的认知逻辑,到数据飞轮的效率革命,再到开源共享的普惠精神。 Deepseek Math V2不仅展示了 AI 数学推理的技术高度,更诠释了技术向善的真正含义。 当硅谷大厂执着于技术垄断和超额利润时,Deepseek 用开源证明,只有让全人类共同参与 AI 创新,才能推动文明的真正进步。 就像我们今天分享这些思考一样,开放与共享才是 AI 时代最宝贵的财富。
back to top