据动察 Beating 监测,DeepSeek V4 公布了两组形式化数学推理评测。Putnam(普特南竞赛)是北美最高水平本科数学竞赛。
在实用场景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基准上拿到 81.00 分,使用开源工具 LeanExplore 和受限采样。作为对比,Seed-2.0-Prover 为 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均为 26.50。
在前沿场景(Frontier Regime)下,V4 采用混合形式-非形式推理方案,先用 informal reasoning 生成候选自然语言解,经自我验证过滤后,再由 formal agent 在 Lean 中完成严格证明。V4 在 Putnam-2025 拿到 120/120 满分,与 Axiom 并列第一,高于 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿场景使用了大规模计算扩展,实用场景结果更能反映常规部署能力。