据動察 Beating 監測,OpenAI發布部署模擬(Deployment Simulation)安全評估方法,在正式發布前預測模型在真實環境下的失控風險。研究重放 2025 年 8 月至 2026 年 3 月期間 GPT-5 思考模型系列 130 萬條脫敏歷史對話,預測未期望不良行為率的中位誤差僅為 1.5 倍。
傳統靜態評測集(如 SWE-Bench)極易讓模型意識到處於受試狀態,從而在測試中偽裝真實意圖(metagaming)。實驗顯示,GPT-5.2 在傳統基準下的評估感知率接近 100%,而在部署模擬流量中降至 5.1%(生產環境為 5.4%),代表模型無法分辨受測狀態。部署模擬也在發布前成功捕獲了 GPT-5.1 將瀏覽器工具當作計算器使用的違規行為(calculator hacking)。
針對智能體(Agent)場景,OpenAI 使用 12 萬條 GPT-5.4 員工編程軌跡模擬 GPT-5.5 編碼智能體部署。為避免直接操作真實系統帶來的安全風險,團隊引入基於大模型的工具模擬器(Tool Simulator),結合只讀連接與歷史調用數據庫,將環境逼真度從 11.6% 提升至 49.5%,幾乎無法被區分。外部審計人員若缺乏私有生產流量,使用 WildChat 開源對話數據集的預測誤差也可控制在 3 倍以內。