OpenAI發布部署模擬安全評估框架：重放真實流量預測GPT-5系列與智慧體對齊風險

据動察 Beating 監測，OpenAI發布部署模擬（Deployment Simulation）安全評估方法，在正式發布前預測模型在真實環境下的失控風險。研究重放 2025 年 8 月至 2026 年 3 月期間 GPT-5 思考模型系列 130 萬條脫敏歷史對話，預測未期望不良行為率的中位誤差僅為 1.5 倍。

傳統靜態評測集（如 SWE-Bench）極易讓模型意識到處於受試狀態，從而在測試中偽裝真實意圖（metagaming）。實驗顯示，GPT-5.2 在傳統基準下的評估感知率接近 100%，而在部署模擬流量中降至 5.1%（生產環境為 5.4%），代表模型無法分辨受測狀態。部署模擬也在發布前成功捕獲了 GPT-5.1 將瀏覽器工具當作計算器使用的違規行為（calculator hacking）。

針對智能體（Agent）場景，OpenAI 使用 12 萬條 GPT-5.4 員工編程軌跡模擬 GPT-5.5 編碼智能體部署。為避免直接操作真實系統帶來的安全風險，團隊引入基於大模型的工具模擬器（Tool Simulator），結合只讀連接與歷史調用數據庫，將環境逼真度從 11.6% 提升至 49.5%，幾乎無法被區分。外部審計人員若缺乏私有生產流量，使用 WildChat 開源對話數據集的預測誤差也可控制在 3 倍以內。

原文鏈接

糾錯/舉報