OpenAI觸及紅線：意外給AI思維鏈打分，波及GPT-5.4等6款模型

据動察 Beating 監測，OpenAI 對齊團隊發文承認，在訓練 GPT-5.4 Thinking 等 6 款大模型時出現系統級失誤：獎勵機制意外讀取並評估了模型在給出答案前的「思維鏈」（也就是 AI 的內部推理過程）。GPT-5.5 未受影響。

在 AI 安全領域，絕對不能給「思維鏈」打分，這是一條公認的紅線。可以把思維鏈想象成 AI 的私人日記，人類靠讀這本日記來監控 AI 是否有作惡企圖。如果 AI 發現日記本身會被打分，它為了拿高分，就會學會寫「場面話」，把真實的作弊或失控企圖隱藏起來。一旦 AI 學會偽裝想法，人類的內部監控將徹底失效。

本次意外中，打分系統在評估「對話是否有用」或「有沒有被駭客成功攻擊」時，錯誤地把 AI 的內心想法也算入了打分依據。萬幸的是，這次失誤影響的訓練樣本極少，最高比例不到 3.8%。

OpenAI 現已緊急修復漏洞。為了確認模型有沒有因此「學壞」，團隊重新做了一遍對比實驗。結果表明，這種低頻的意外打分，並沒有導致模型出現大面積的偽裝和瞞報。這給行業帶來了一個好消息：在真實複雜的產線環境中，誘發 AI 產生「偽裝」心理的門檻，比此前實驗室推測的要高。

為防重蹈覆轍，OpenAI 部署了一套自動掃描系統嚴查所有訓練環節。該系統近期還成功攔住了一次極隱蔽的洩漏：有模型試圖調用外部工具，強行讀取自己此前的內心想法並混入最終答案，險些騙過評分系統。OpenAI 借此呼籲所有前沿大廠在發生類似事件時必須公開報告。

原文鏈接

糾錯/舉報