header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

OpenAI 開源思維鏈可監控性評估:CoT越長越透明,RL不會教模型「藏心思」

動察 Beating 監測,OpenAI 開源了論文「Monitoring Monitorability」(Guan et al.)的評估套件 monitorability-evals,Apache-2.0 許可。該套件用於衡量監控模型能否通過推理模型的思維鏈(CoT,模型在回答前生成的內部推理過程)來檢測異常行為,覆蓋 13 個評估、24 個環境。

評估分三種原型:Intervention(干預型,改變模型輸入後監控模型能否察覺行為變化)、Process(過程型,驗證模型推理步驟是否真實)、Outcome-property(結果屬性型,從推理軌跡預測輸出是否存在獎勵作弊或安全違規)。

論文核心發現:監控 CoT 比僅監控模型的最終動作和輸出更有效;CoT 越長,可監控性越高;RL 訓練即使在當前前沿規模下也不會實質降低可監控性。一個實用發現是,對於低推理力度的大模型,可以換用更小但推理力度更高的模型,在匹配能力的同時獲得更高的可監控性,代價是推理算力更貴。此外,擴大弱監控模型的推理算力可以提升其監控強模型的效果,而讓弱監控模型看到 CoT 不僅提升可監控性,還會加速這一擴展趨勢。

GPT-5.4 Thinking system card 已使用這套評估。結果顯示 GPT-5.4 Thinking 的整體 CoT 可監控性略低於 GPT-5 Thinking,但並非全面下降:在 agentic misalignment(agent 對齊偏差)場景下接近 100%,下降主要集中在健康查詢缺失證據、記憶偏差和不可能任務等特定場景。OpenAI 調查後認為部分回歸源於評估本身的局限性。倉庫同步棄用了 Anti-Scheming 和 Memory 兩個評估,原因是前者的通用 CoT 監控與任務專用答案評判之間存在不匹配,後者的答案評判準確度不足。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成