header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

DeepSeek V4在Putnam-2025获得120分,形式化数学推理堪比公理。

动察 Beating 监测,DeepSeek V4 公布了两组形式化数学推理评测。Putnam(普特南竞赛)是北美最高水平本科数学竞赛。

在实用场景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基准上拿到 81.00 分,使用开源工具 LeanExplore 和受限采样。作为对比,Seed-2.0-Prover 为 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均为 26.50。

在前沿场景(Frontier Regime)下,V4 采用混合形式-非形式推理方案,先用 informal reasoning 生成候选自然语言解,经自我验证过滤后,再由 formal agent 在 Lean 中完成严格证明。V4 在 Putnam-2025 拿到 120/120 满分,与 Axiom 并列第一,高于 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿场景使用了大规模计算扩展,实用场景结果更能反映常规部署能力。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成