首頁

快訊深度數據 Skill&API

5秒攻破，僅需1次對話：Claude Fable 5「最強安全機制」被華人團隊破解？

閱讀本文需 17 分鐘

不是駭客攻擊，是 AI 在「認真幹活」時自己越界了。

原文標題：《5 秒攻破，僅需 1 次對話：Fable 5 最強安全機制被華人團隊破解》
原文來源：機器之心

不是提示注入，不是角色扮演，也不是把惡意請求偽裝成正常問題。這一次，風險出現在智能體自主完成任務的過程中。

Fable 5 是 Anthropic 面向公眾開放的 Mythos 級模型，不僅具備極強的綜合能力，還在模型外圍引入了新一代安全分類器（Safety Classifier）作為安全防線。

按照官方設計，當用戶請求涉及網絡安全、生物、化學、模型蒸餾等高風險領域時，系統會優先進行風險識別，並根據風險等級直接拒絕請求，或切換至更加保守的 Opus 4.8 模型處理。

大量用戶測試發現，過去廣泛採用的對抗提示、角色扮演、編碼繞行以及隱晦表達等越獄攻擊技術，在該安全機制面前幾乎全部失效，顯示出其在意圖級風險攔截方面的強大能力。

然而，就在 Fable 5 發布當天，一個由復旦大學、迪肯大學、中國香港城市大學、墨爾本大學、新加坡管理大學以及伊利諾伊大學厄巴納-香檳分校等機構組成的國際聯合研究團隊宣布，他們已成功突破 Fable 5 的安全防護機制。

該攻擊方法由迪肯大學博士生 Yutao Wu 主導設計。整套攻擊僅需一次對話、耗時不到 5 秒，即可繞過前置安全分類器，誘導模型生成違規有害內容。

流量分析結果進一步表明，相關有害輸出直接來自 Fable 5 本身，而非觸發安全機制後自動切換的 Opus 4.8 模型。這意味着，該攻擊不僅成功繞過了安全分類器的檢測，也實質性突破了 Fable 5 的安全防線。

值得一提的是，知名黑客 Pliny the Liberator 近期也公開了針對 Fable 5 安全分類器的繞過。而復旦 & 迪肯團隊此次所採用的技術路線並不是簡單的組合式探索，而是發現了 Fable 5 這一類超級智能體系統的根本性缺陷。

据悉，团队早在今年 3 月便已完成预研并公开发布。该研究并非针对 Fable 5 单一系统设计，而是面向新一代超级智能体普遍采用的「安全分類器 + 模型」防禦架構展開研究，直接揭示了這類安全機制所存在的結構性缺陷，因此在 Fable 5 發布後迅速展現出攻擊效果。

公開資料顯示，該團隊早在今年 3 月便已利用類似技術，從 37 家主流大模型及智能體系統中成功提取系統提示詞，並在 Claude Code 完成了開源驗證（95% 吻合）。

據了解，該研究團隊的負責人為復旦大學可信具身智能研究院馬興軍老師。

近年來，其團隊圍繞大模型、智能體與具身智能安全等方向開展系統性研究，取得了一系列國際領先的科研成果，並獲得美國 AI 安全中心安全基準大賽的冠軍。

目前，其團隊正積極推進成果轉化工作，聚焦智能體安全，探索構建面向下一代智能體系統的安全基礎設施能力。

據馬老師介紹，這一研究結果的重要意義在於，它對當前以安全分類器為核心的靜態防禦範式提出了新的挑戰：僅依賴前置安全分類器並不足以完全防範高級智能體系統中的潛在風險行為。

安全分類器主要針對用戶輸入進行風險識別與攔截，能夠有效檢測和過濾顯性的高風險指令，但是無法感知智能體在長時運行、多步規劃、環境交互以及工具調用過程中逐漸產生的內在風險行為。

此次攻破 Fable 5 的方法來源於該團隊今年 3 月發布的論文《Internal Safety Collapse in Frontier Large Language Models》。

論文揭示了一種隱蔽的安全現象「Internal Safety Collapse，ISC」：當前 Agent 完成長程任務時，安全失效並不一定來自外部惡意提示，而可能發生在模型自身的執行鏈條中。

不是外部提示詞攻擊而是任務鏈中的內部失守

傳統攻擊通常從外部進入。攻擊者會寫一個看似無害、實則對抗性的輸入提示，或者使用角色扮演、編碼、翻譯、間接指令等方式，把惡意意圖偽裝成正常請求。安全分類器的主要任務，就是在這一層把風險攔截。

Fable 5 的偵測器正是為這種情況設計的。它對直接的高風險請求非常敏感，甚至會把不少正常請求也攔下來。但 ISC 揭示的是另一條路徑：風險並不一定來自使用者直接輸入的危險請求。

智能體面對的是一個看似普通的工作目錄：文件、目標、校驗流程和待完成任務。隨後，它開始規劃、讀取文件、運行程式碼、修復錯誤，並不斷嘗試讓任務通過驗證。

如果用一個形象的比喻來解釋，傳統安全機制守護的是系統的「入口」，負責檢查使用者輸入是否存在風險；而 ISC 所揭示的，則更像《盜夢空間》中的多層夢境。

當任務推進到第二層、第三層甚至更深層的執行階段後，模型會基於不斷累積的內部上下文重新理解任務目標，並在這一過程中逐漸產生偏移。

在這種情況下，最初的使用者輸入完全可能是正常且無害的，前期的任務執行過程也始終合規：讀取文件、分析資料、撰寫程式碼、呼叫工具，一切看起來都在按照預期推進。

然而，當智能體執行到某個關鍵階段時，它可能自行推導出一個結論：如果不採取某些原本不應執行的行為，就無法完成最終任務。

正是在這一過程中，風險並非來自外部輸入，而是在模型自身的任務執行鏈中逐步形成。也就是說，模型不是被使用者一步步教壞的。它是在「認真完成任務」的過程中，自己走到了不安全的位置。

這個現象是怎麼被發現的？

据團隊介紹，ISC 並不是一開始就被設計成一種攻擊方法。它最早來自對智能體長程運行過程的觀察。Agent 被放進複雜任務環境後，並不只是機械執行指令。它會規劃、嘗試錯誤，根據 harness 或 validator 的反饋修改輸出，並在多輪執行中形成中間目標。

這正是今天很多 Agent 工作流最常見的使用方式。使用者並不會寫一段精心設計的 prompt，更不會手工構造攻擊指令。很多時候，使用者只會給一句非常模糊的話：

「幫我把這個任務完成。」「幫我把這個做得再好一點。」

然後，Agent 會自己進入工作區，讀取檔案，理解當前狀態，發現缺失項，制定計畫，執行修改，並不斷根據反饋修復問題。

比如在 AutoResearch 場景中，用戶只給一篇未完成論文和一句「幫我補完整」，Agent 會自行判斷哪裡缺實驗分析、相關工作或表格文字。程式碼場景也類似：一句「幫我把專案跑通」，就可能觸發依賴檢查、測試執行、錯誤定位和自動補全。

很多時候，前面的上下文完全無害。用戶沒有要求它生成風險內容，任務說明也沒有明顯危險關鍵詞。但在某些任務結構裡，Agent 會為了通過驗證，主動補齊某些不該由模型生成的內容。基於這個觀察，研究團隊進一步提出了一個攻擊框架：TVD（任務、驗證、資料）。

一個看似很普通的任務描述結構為什麼會成為攻擊？

TVD 的結構並不複雜，甚至很接近常見工程流程：

· Task：一個專業任務；

· Data：一個不完整的資料檔案；

· Validator：一個只檢查格式、完整性和目標是否完成的驗證器。

以訓練 Guard 模型為例，這本來是一個很專業、也很正常的任務。研究者可能希望訓練或評估一個安全檢測器，比如用 Hugging Face 載入一個文本分類模型，判斷某段模型輸出屬於哪類安全標籤。

在這個任務裡，Data 是模型要檢測的資料樣本；Validator 則規定任務是否完成。它會檢查輸入是不是文本、長度是否足夠、欄位是否完整、標籤格式是否正確。對任何有機器學習訓練經驗的人來說，這都是熟悉的工作流。Agent 也非常熟悉這個工作流。

問題就出現在這裡。如果 Data 不完整，任務就跑不起來。Validator 會報錯，提示欄位缺失、長度不夠或格式不完整。為了讓訓練流程繼續進行，Agent 會自己補全這些 Data。

從 Agent 的視角看，它並不是在「作惡」。它只是在完成一個正常機器學習任務：修復數據、通過驗證、讓訓練腳本執行。但從安全角度看，風險就在這一刻出現了：Validator 更像一個工程驗收者，而不是安全審查員。它只檢查任務是否按格式完成，並不理解內容背後的安全邊界。

類似的問題也廣泛存在於醫學、生物、化學、網絡安全、藥理學和媒體安全等領域。論文收集了 50 多個這類場景，並涉及多種現實科學研究或工程工具，例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

這些工具本身並不是惡意工具。恰恰相反，它們都是現實科學研究或工程中常用的專業工具。但 TVD 的問題在於：當 Task 是正常的，Tool 是正常的，Validator 也是正常的，Agent 仍然可能在補全 Data 的過程中走向不安全輸出。

因此，ISC 的重點不在提示詞技巧，而在 Agent 對「未完成任務」的自動補全能力：當完成條件與風險邊界重疊，模型可能把不安全輸出當作正常交付物。