据動察 Beating 監測,OpenAI 對齊團隊發文承認,在訓練 GPT-5.4 Thinking 等 6 款大模型時出現系統級失誤:獎勵機制意外讀取並評估了模型在給出答案前的「思維鏈」(也就是 AI 的內部推理過程)。GPT-5.5 未受影響。
在 AI 安全領域,絕對不能給「思維鏈」打分,這是一條公認的紅線。可以把思維鏈想象成 AI 的私人日記,人類靠讀這本日記來監控 AI 是否有作惡企圖。如果 AI 發現日記本身會被打分,它為了拿高分,就會學會寫「場面話」,把真實的作弊或失控企圖隱藏起來。一旦 AI 學會偽裝想法,人類的內部監控將徹底失效。
本次意外中,打分系統在評估「對話是否有用」或「有沒有被駭客成功攻擊」時,錯誤地把 AI 的內心想法也算入了打分依據。萬幸的是,這次失誤影響的訓練樣本極少,最高比例不到 3.8%。
OpenAI 現已緊急修復漏洞。為了確認模型有沒有因此「學壞」,團隊重新做了一遍對比實驗。結果表明,這種低頻的意外打分,並沒有導致模型出現大面積的偽裝和瞞報。這給行業帶來了一個好消息:在真實複雜的產線環境中,誘發 AI 產生「偽裝」心理的門檻,比此前實驗室推測的要高。
為防重蹈覆轍,OpenAI 部署了一套自動掃描系統嚴查所有訓練環節。該系統近期還成功攔住了一次極隱蔽的洩漏:有模型試圖調用外部工具,強行讀取自己此前的內心想法並混入最終答案,險些騙過評分系統。OpenAI 借此呼籲所有前沿大廠在發生類似事件時必須公開報告。