OpenAI 開源思維鏈可監控性評估：CoT越長越透明，RL不會教模型「藏心思」

据動察 Beating 監測，OpenAI 開源了論文「Monitoring Monitorability」（Guan et al.）的評估套件 monitorability-evals，Apache-2.0 許可。該套件用於衡量監控模型能否通過推理模型的思維鏈（CoT，模型在回答前生成的內部推理過程）來檢測異常行為，覆蓋 13 個評估、24 個環境。

評估分三種原型：Intervention（干預型，改變模型輸入後監控模型能否察覺行為變化）、Process（過程型，驗證模型推理步驟是否真實）、Outcome-property（結果屬性型，從推理軌跡預測輸出是否存在獎勵作弊或安全違規）。

論文核心發現：監控 CoT 比僅監控模型的最終動作和輸出更有效；CoT 越長，可監控性越高；RL 訓練即使在當前前沿規模下也不會實質降低可監控性。一個實用發現是，對於低推理力度的大模型，可以換用更小但推理力度更高的模型，在匹配能力的同時獲得更高的可監控性，代價是推理算力更貴。此外，擴大弱監控模型的推理算力可以提升其監控強模型的效果，而讓弱監控模型看到 CoT 不僅提升可監控性，還會加速這一擴展趨勢。

GPT-5.4 Thinking system card 已使用這套評估。結果顯示 GPT-5.4 Thinking 的整體 CoT 可監控性略低於 GPT-5 Thinking，但並非全面下降：在 agentic misalignment（agent 對齊偏差）場景下接近 100%，下降主要集中在健康查詢缺失證據、記憶偏差和不可能任務等特定場景。OpenAI 調查後認為部分回歸源於評估本身的局限性。倉庫同步棄用了 Anti-Scheming 和 Memory 兩個評估，原因是前者的通用 CoT 監控與任務專用答案評判之間存在不匹配，後者的答案評判準確度不足。

原文鏈接

糾錯/舉報