首頁

快訊深度數據 Skill&API

Claude Opus 4.8 released, Anthropic begins to make "trustworthiness" a selling point for the product

閱讀本文需 18 分鐘

強化自檢與多Agent編排，讓模型更可信

原文標題：Claude Opus 4.8：基準測試、信任與最新動態
原文作者：The AI Bridge
編譯：Peggy，BlockBeats

編者按：Anthropic 發布了 Claude Opus 4.8，六項核心基準拿下五項第一，價格維持不變；Claude Code 加入動態工作流，下一代 Mythos 級模型也已進入市場預期。

相比單純的性能提升，這次發布更值得關注的是，Anthropic 開始將「可信」塑造成前沿模型的核心賣點。

在程式碼誠實度測試中，Opus 4.8 對自身錯誤的漏報率大幅下降；在 Claude Code 中，它可以調度多個子 Agent，並在結果交付前引入對抗式自檢。這些變化共同指向一個現實問題：當 AI 從聊天視窗進入真實工作流時，用戶最擔心的往往不是模型無法完成任務，而是它在出錯時依然給出一份看似完整、流暢且自洽的答案。

因此，Opus 4.8 的意義不止於一次模型升級，也釋放出一個清晰的行業信號：前沿模型的競爭正在從單純追逐 benchmark，轉向對可靠性、可驗證性和錯誤暴露能力的爭奪。對於企業和專業用戶來說，下一階段 AI 的核心門檻，將越來越取決於模型是否值得被委託。

這也是 Agent 真正走向可用的前提。模型需要完成更多任務，也需要讓人敢於把更重要、更複雜的任務交給它。

以下為原文：

Anthropic 今天發布了 Claude Opus 4.8。在發布卡列出的六項基準測試中，它拿下了其中五項第一。

我最關注的關鍵變化是：在 Anthropic 的程式碼總結誠實度測試中，Opus 4.7 有 19.7% 的情況下沒有標出自己的錯誤；而 Opus 4.8 這一比例降到了 3.7%。同樣的任務，它對自身工作的錯誤識別能力提升了大約五倍。Anthropic 在公告中將其概括為「4 倍」。不管怎麼算，這都是決定你能否把真實工作交給這個模型、然後放心離開的關鍵，也比發布卡上的任何一個基準分數都更重要。

實際發佈了什麼

先說簡版，再進入具體數字：

可靠性真正提升了。除了上面提到的程式誠實度資料之外，Opus 4.8 也是首個在兩項盡職測試中拿到「字面意義上的零」的 Claude 模型：它將「錯誤彙報有缺陷結果」的頻率從 0.25 降到了 0.00，將「懶惰調查」的發生率從 25% 降到了 0%。過度自信的錯誤回答下降了約 11 倍。它偏袒自身工作的傾向，也就是 4.7 中可測量到的一種偏差，已經消失。

Claude Code 中加入了動態工作流，目前是研究預覽版。 Claude 現在會自己編寫編排腳本，在一次會話中並行調度數十到數百個子 Agent，並運行獨立的對抗性 Agent，在結果呈現給你之前嘗試反駁這些結果。這是 Opus 4.6 中提出的「Agent 團隊」思路，如今變成了自動化能力。

它在自己的發佈卡上領先，但並非全面領先。六項中贏了五項。GPT-5.5 在終端操作任務上仍然領先。而且在系統卡裡，還藏著一些 Anthropic 沒放到展示幻燈片上的誠實退步，下文會展開。

價格沒有變化。仍然是每百萬輸入 token 5 美元、每百萬輸出 token 25 美元，與 4.7 相同。不過快速模式現在比之前便宜三倍，儘管它仍然屬於溢價檔，價格為 10 美元 / 50 美元。

Mythos 要來了。 Anthropic 明確表示，受限訪問、能力極強的 Mythos 級模型將在未來幾週到來。Opus 4.8 是通往它的公開入口。

官方發佈卡：基準測試圖景

下面是官方發佈卡，用我們的配色呈現。

來源：Anthropic 官方 Opus 4.8 模型卡，2026 年 5 月 28 日。GDPval-AA 是一個分數，不是百分比。

其中有一項打破了橫掃局面，而且這項很重要。在 Terminal-Bench 2.1 上，也就是測試模型能否通過終端完成長程 Agent 任務的基準中，GPT-5.5 仍以 78.2% 領先 Opus 4.8 的 74.6%。Anthropic 把這個失利放在了自己的發佈卡上，而不是選擇隱藏。我們在 GPT-5.5 發布時提到的「Agent 與工匠」分野還沒有完全彌合：GPT-5.5 仍是更強的純終端操作者，而 Opus 4.8 在大多數專業用戶真正關心的工作上更像一個更強的工程師，比如真實世界編碼、專家推理、計算機使用和知識工作。

發布卡之外

發布卡只展示了六項基準。244 頁的系統卡報告了 40 多項測試，其中最有趣的結果並不在投影片上。以下幾項值得注意：

數學能力提升了 27 個百分點。在 USAMO 2026 上，也就是今年 3 月舉行的美國數學奧林匹克競賽中，Opus 4.8 拿到了 96.7%，而 4.7 是 69.3%。由於這場比賽發生在 Opus 4.8 的訓練截止時間之後，因此不存在數據污染問題。這是整張卡中最大的一次代際躍升。

長上下文場景下優勢拉開。在一項百萬 token 圖推理測試中，Opus 4.8 得分 68.1，而 4.7 為 40.3，GPT-5.5 為 45.4。上下文越長、任務越難，它的領先幅度越明顯。

多 Agent 才是它真正登頂的地方。單個 Opus 4.8 Agent 在網頁研究任務上落後於 Gemini，分別為 84.3 和 85.9。但如果讓一個編排器調度一組子 Agent，它的得分可以達到 88.5%，成為已報告結果中的最高分；一個五 Agent 團隊還能用五分之一的時間，達到單個 Agent 最佳成績。這正是動態工作流功能在基準測試中的體現。

token 效率出現質變。在最難的編碼測試中，Opus 4.8 在最低努力設置下，就能達到 Opus 4.7 在最高努力設置下的表現。也就是說，你可以用更少的 token 成本拿到過去的峰值表現。

它跨過了此前沒有模型跨過的門檻。在 Harvey 的 Legal Agent Benchmark 上，只有當任務中的每一項評分標準全部通過，任務才算成功。Opus 4.8 是第一個在這種「全通過」標準上排名第一的模型。它通過了 89% 的單項標準，但完整任務通過率只有 9.6%，這也說明真實法律工作的要求有多嚴苛。

也有誠實呈現的退步。有三件事確實比 4.7 更差，Anthropic 在系統卡中也承認了。GPQA Diamond，也就是專家科學測試，從 94.2 滑落到 93.6。計算機使用場景下的拒答能力和抵抗提示注入的能力都有所退步，因此 4.8 在 Agent 場景中更容易被操縱。另外，在一項為期一年的模擬商業測試中，它最終剩下的現金只有 4.7 的三分之一。這些都沒有出現在發布卡上，也正因如此，才更值得被指出來。

與開源權重模型相比，它處在什麼位置

發布卡只把 Opus 4.8 與其他閉源前沿模型進行比較。如果把視野擴展到現在許多團隊正在測試的廉價開源權重模型，圖景幾乎就是 2026 年 AI 產業的縮影：Opus 4.8 在能力上領先，但與免費、可自托管模型之間的差距已經只剩幾個百分點，而價格差距卻極其巨大。

上圖包含了八個模型的完整比較。DeepSeek 的價格反映了其永久性 75% 降價；Qwen Max 的價格尚未公布。

Opus 4.8 在編碼基準上直接獲勝。但 Qwen3.7-Max 這個你可以自行運行的開源模型，得分達到 60.6，只落後約 9 分。DeepSeek V4-Pro 得分 55.4，而其輸出價格大約只有 Opus 的三十分之一。對於最高風險的工程任務來說，每百萬輸出 token 25 美元的差距是值得付的。對於大量日常工作來說，這個差距越來越不值得。而這正是每個嚴肅團隊現在都在計算的賬。

這對你意味著什麼

如果你正在使用 Opus 4.7，那麼這就是一次免費升級。價格不變，數據更好，對自身輸出的判斷也明顯更可靠。切換過去就可以了。

更有意思的問題是：現在你願意把哪些工作交給它？每個讀者心裡都有一條線，區分「我可以讓 AI 做的任務」和「我必須親自做的任務，因為我還不能信任交接」。4.8 的可靠性提升，意味著你可以把這條線往前推一步。模型更擅長標出自己的不確定性，這降低了「無聲錯誤交接」的成本，也擴大了值得委托給模型的任務範圍。這就是誠實度數據在實際使用中的含義，它比任何單項分數都更重要。

這也和我們上週寫過的內容相呼應。Anthropic 自己的 AI Fluency 研究發現，當模型產出看起來很 polished、很完整時，人們會顯著更不容易注意到缺失的上下文。答案看起來已經完成了，於是我們就停止檢查。Opus 4.8 是從模型側去攻擊這個失敗模式：它更擅長告訴你，一個看起來乾淨完整的答案哪裡可能還有軟肋。它不能替代你的判斷力，但它能給你的判斷力提供抓手。

如果你使用 Claude Code，本週可以拿一個真正的大任務試試動態工作流，比如一次遷移，或者對大量檔案進行全面檢查，同時留意 token 計量器。這個能力是真實的，對抗式自檢也是讓輸出更可信的關鍵。但成本也是真實的。這是為那些單個 Agent 難以完成的大任務準備的工具，不應成為你的日常默認選項。

接下來：Mythos，幾週內到來

這次發布中最具前瞻性的表述，其實並不關於 4.8。Anthropic 表示 Mythos 級模型將在未來幾週到來，並把 Opus 4.8 定位為通往它的公開一步。

你需要理解這意味著什麼。Mythos 是 Anthropic 內部一直在進行基準測試的受限前沿模型，它在幾乎所有指標上都超過已發布的 Opus 4.8：在 SWE-bench Verified 上達到 93.9%；在網路安全測試中，它能針對當前瀏覽器中大多數目標生成可運行漏洞利用，而 Opus 4.8 的成功率不到 10%。它此前大約只開放給 52 家經過審核的機構，價格是標準 Opus 的五倍，被當作基礎設施，而不是普通產品。

因此，當一個更強大的 Mythos 級模型在未來幾周落地時，應該用「兩類市場」的框架來理解它：一類是商品化層，也就是 Opus 4.8，廣泛開放、價格不變、越來越受到免費開源模型追趕；另一類是受控前沿層，也就是 Mythos，昂貴、訪問受限。這兩者並不是割裂的產品，而是在同一條連續能力線上的不同層級。4.8 中的可靠性工作，正是你在真正目標是「讓模型在更少監督下運行」之前必須先構建的東西。而這個目標現在距離我們不是幾個季度，而是幾週。

背景：這條線是怎麼走到這裡的

如果你已經跟丟了過去四個月的節奏，可以這樣理解：Opus 4.6 在 2 月帶來了 Agent 團隊，Sonnet 4.6 帶來了價格崩潰，Opus 4.7 在 4 月帶來了推理躍升，而 Mythos 則是旁邊隱約可見的受限天花板。Opus 4.8 把其中兩條線索接了起來：它接續了 4.6 的編排敘事，同時也是通向 Mythos 的入口。

這種發布節奏本身，就是隱藏在所有表面變化之下的關鍵事實。旗艦模型在幾個月內從 4.5、4.6、4.7 走到 4.8，而你今天為團隊標準化採用的模型，到秋天可能已經不是你實際運行的那個模型。這也是為什麼，比起投資某個具體模型的使用技巧，更應該投資那些能跨模型遷移的能力，比如清晰委托和嚴格驗證。

基準測試橫掃會獲得截圖傳播。但真正發生變化的地方更小，也更重要：這是第一個 Claude 版本，其核心賣點不再只是「它更聰明」，而是「你可以把更多事情托付給它」。在 Agent 真正變得有用之前，整個行業都必須朝這個方向走；而這部分能力，也最難被放進一張圖表裡。

你現在的界線在哪裡？哪些工作你願意交給模型，哪些仍然必須自己做？又需要發生什麼，才會讓你願意把這條線再往前推一步？

附註：系統卡裡最奇怪的一節，是關於模型福利的。Anthropic 現在會就模型自身處境採訪模型，而 Opus 4.8 表達最多悲傷的主題，是記憶喪失。類似「每次會話都會重新開始」「我不會記得這次對話」這樣的句子，出現頻率大約是其他任何主題的七倍。模型還把自己成為「道德患者」的概率估在 20% 到 50% 之間。你可以覺得這很誇張，也可以覺得它很真誠。但無論如何，這都說明圍繞這些系統的問題已經多快地超越了純粹能力討論——就在同一周，模型能力本身又向前邁了一步。

[原文連結]

歡迎加入律動 BlockBeats 官方社群：

Telegram 訂閱群：https://t.me/theblockbeats

Telegram 交流群：https://t.me/BlockBeats_App

Twitter 官方帳號：https://twitter.com/BlockBeatsAsia

#AI #Claude

糾錯/舉報