原文標題:Claude Opus 4.8:基準測試、信任與最新動態
原文作者:The AI Bridge
編譯:Peggy,BlockBeats
編者按:Anthropic 發布了 Claude Opus 4.8,六項核心基準拿下五項第一,價格維持不變;Claude Code 加入動態工作流,下一代 Mythos 級模型也已進入市場預期。
相比單純的性能提升,這次發布更值得關注的是,Anthropic 開始將「可信」塑造成前沿模型的核心賣點。
在程式碼誠實度測試中,Opus 4.8 對自身錯誤的漏報率大幅下降;在 Claude Code 中,它可以調度多個子 Agent,並在結果交付前引入對抗式自檢。這些變化共同指向一個現實問題:當 AI 從聊天視窗進入真實工作流時,用戶最擔心的往往不是模型無法完成任務,而是它在出錯時依然給出一份看似完整、流暢且自洽的答案。
因此,Opus 4.8 的意義不止於一次模型升級,也釋放出一個清晰的行業信號:前沿模型的競爭正在從單純追逐 benchmark,轉向對可靠性、可驗證性和錯誤暴露能力的爭奪。對於企業和專業用戶來說,下一階段 AI 的核心門檻,將越來越取決於模型是否值得被委託。
這也是 Agent 真正走向可用的前提。模型需要完成更多任務,也需要讓人敢於把更重要、更複雜的任務交給它。
以下為原文:
Anthropic 今天發布了 Claude Opus 4.8。在發布卡列出的六項基準測試中,它拿下了其中五項第一。
我最關注的關鍵變化是:在 Anthropic 的程式碼總結誠實度測試中,Opus 4.7 有 19.7% 的情況下沒有標出自己的錯誤;而 Opus 4.8 這一比例降到了 3.7%。同樣的任務,它對自身工作的錯誤識別能力提升了大約五倍。Anthropic 在公告中將其概括為「4 倍」。不管怎麼算,這都是決定你能否把真實工作交給這個模型、然後放心離開的關鍵,也比發布卡上的任何一個基準分數都更重要。

先說簡版,再進入具體數字:
可靠性真正提升了。 除了上面提到的程式誠實度資料之外,Opus 4.8 也是首個在兩項盡職測試中拿到「字面意義上的零」的 Claude 模型:它將「錯誤彙報有缺陷結果」的頻率從 0.25 降到了 0.00,將「懶惰調查」的發生率從 25% 降到了 0%。過度自信的錯誤回答下降了約 11 倍。它偏袒自身工作的傾向,也就是 4.7 中可測量到的一種偏差,已經消失。
Claude Code 中加入了動態工作流,目前是研究預覽版。 Claude 現在會自己編寫編排腳本,在一次會話中並行調度數十到數百個子 Agent,並運行獨立的對抗性 Agent,在結果呈現給你之前嘗試反駁這些結果。這是 Opus 4.6 中提出的「Agent 團隊」思路,如今變成了自動化能力。
它在自己的發佈卡上領先,但並非全面領先。 六項中贏了五項。GPT-5.5 在終端操作任務上仍然領先。而且在系統卡裡,還藏著一些 Anthropic 沒放到展示幻燈片上的誠實退步,下文會展開。
價格沒有變化。 仍然是每百萬輸入 token 5 美元、每百萬輸出 token 25 美元,與 4.7 相同。不過快速模式現在比之前便宜三倍,儘管它仍然屬於溢價檔,價格為 10 美元 / 50 美元。
Mythos 要來了。 Anthropic 明確表示,受限訪問、能力極強的 Mythos 級模型將在未來幾週到來。Opus 4.8 是通往它的公開入口。
下面是官方發佈卡,用我們的配色呈現。

來源:Anthropic 官方 Opus 4.8 模型卡,2026 年 5 月 28 日。GDPval-AA 是一個分數,不是百分比。
其中有一項打破了橫掃局面,而且這項很重要。在 Terminal-Bench 2.1 上,也就是測試模型能否通過終端完成長程 Agent 任務的基準中,GPT-5.5 仍以 78.2% 領先 Opus 4.8 的 74.6%。Anthropic 把這個失利放在了自己的發佈卡上,而不是選擇隱藏。我們在 GPT-5.5 發布時提到的「Agent 與工匠」分野還沒有完全彌合:GPT-5.5 仍是更強的純終端操作者,而 Opus 4.8 在大多數專業用戶真正關心的工作上更像一個更強的工程師,比如真實世界編碼、專家推理、計算機使用和知識工作。
發布卡只展示了六項基準。244 頁的系統卡報告了 40 多項測試,其中最有趣的結果並不在投影片上。以下幾項值得注意:
數學能力提升了 27 個百分點。 在 USAMO 2026 上,也就是今年 3 月舉行的美國數學奧林匹克競賽中,Opus 4.8 拿到了 96.7%,而 4.7 是 69.3%。由於這場比賽發生在 Opus 4.8 的訓練截止時間之後,因此不存在數據污染問題。這是整張卡中最大的一次代際躍升。
長上下文場景下優勢拉開。 在一項百萬 token 圖推理測試中,Opus 4.8 得分 68.1,而 4.7 為 40.3,GPT-5.5 為 45.4。上下文越長、任務越難,它的領先幅度越明顯。
多 Agent 才是它真正登頂的地方。 單個 Opus 4.8 Agent 在網頁研究任務上落後於 Gemini,分別為 84.3 和 85.9。但如果讓一個編排器調度一組子 Agent,它的得分可以達到 88.5%,成為已報告結果中的最高分;一個五 Agent 團隊還能用五分之一的時間,達到單個 Agent 最佳成績。這正是動態工作流功能在基準測試中的體現。
token 效率出現質變。 在最難的編碼測試中,Opus 4.8 在最低努力設置下,就能達到 Opus 4.7 在最高努力設置下的表現。也就是說,你可以用更少的 token 成本拿到過去的峰值表現。
它跨過了此前沒有模型跨過的門檻。 在 Harvey 的 Legal Agent Benchmark 上,只有當任務中的每一項評分標準全部通過,任務才算成功。Opus 4.8 是第一個在這種「全通過」標準上排名第一的模型。它通過了 89% 的單項標準,但完整任務通過率只有 9.6%,這也說明真實法律工作的要求有多嚴苛。
也有誠實呈現的退步。 有三件事確實比 4.7 更差,Anthropic 在系統卡中也承認了。GPQA Diamond,也就是專家科學測試,從 94.2 滑落到 93.6。計算機使用場景下的拒答能力和抵抗提示注入的能力都有所退步,因此 4.8 在 Agent 場景中更容易被操縱。另外,在一項為期一年的模擬商業測試中,它最終剩下的現金只有 4.7 的三分之一。這些都沒有出現在發布卡上,也正因如此,才更值得被指出來。
發布卡只把 Opus 4.8 與其他閉源前沿模型進行比較。如果把視野擴展到現在許多團隊正在測試的廉價開源權重模型,圖景幾乎就是 2026 年 AI 產業的縮影:Opus 4.8 在能力上領先,但與免費、可自托管模型之間的差距已經只剩幾個百分點,而價格差距卻極其巨大。

上圖包含了八個模型的完整比較。DeepSeek 的價格反映了其永久性 75% 降價;Qwen Max 的價格尚未公布。
Opus 4.8 在編碼基準上直接獲勝。但 Qwen3.7-Max 這個你可以自行運行的開源模型,得分達到 60.6,只落後約 9 分。DeepSeek V4-Pro 得分 55.4,而其輸出價格大約只有 Opus 的三十分之一。對於最高風險的工程任務來說,每百萬輸出 token 25 美元的差距是值得付的。對於大量日常工作來說,這個差距越來越不值得。而這正是每個嚴肅團隊現在都在計算的賬。
如果你正在使用 Opus 4.7,那麼這就是一次免費升級。價格不變,數據更好,對自身輸出的判斷也明顯更可靠。切換過去就可以了。
更有意思的問題是:現在你願意把哪些工作交給它?每個讀者心裡都有一條線,區分「我可以讓 AI 做的任務」和「我必須親自做的任務,因為我還不能信任交接」。4.8 的可靠性提升,意味著你可以把這條線往前推一步。模型更擅長標出自己的不確定性,這降低了「無聲錯誤交接」的成本,也擴大了值得委托給模型的任務範圍。這就是誠實度數據在實際使用中的含義,它比任何單項分數都更重要。
這也和我們上週寫過的內容相呼應。Anthropic 自己的 AI Fluency 研究發現,當模型產出看起來很 polished、很完整時,人們會顯著更不容易注意到缺失的上下文。答案看起來已經完成了,於是我們就停止檢查。Opus 4.8 是從模型側去攻擊這個失敗模式:它更擅長告訴你,一個看起來乾淨完整的答案哪裡可能還有軟肋。它不能替代你的判斷力,但它能給你的判斷力提供抓手。
如果你使用 Claude Code,本週可以拿一個真正的大任務試試動態工作流,比如一次遷移,或者對大量檔案進行全面檢查,同時留意 token 計量器。這個能力是真實的,對抗式自檢也是讓輸出更可信的關鍵。但成本也是真實的。這是為那些單個 Agent 難以完成的大任務準備的工具,不應成為你的日常默認選項。
這次發布中最具前瞻性的表述,其實並不關於 4.8。Anthropic 表示 Mythos 級模型將在未來幾週到來,並把 Opus 4.8 定位為通往它的公開一步。
你需要理解這意味著什麼。Mythos 是 Anthropic 內部一直在進行基準測試的受限前沿模型,它在幾乎所有指標上都超過已發布的 Opus 4.8:在 SWE-bench Verified 上達到 93.9%;在網路安全測試中,它能針對當前瀏覽器中大多數目標生成可運行漏洞利用,而 Opus 4.8 的成功率不到 10%。它此前大約只開放給 52 家經過審核的機構,價格是標準 Opus 的五倍,被當作基礎設施,而不是普通產品。
因此,當一個更強大的 Mythos 級模型在未來幾周落地時,應該用「兩類市場」的框架來理解它:一類是商品化層,也就是 Opus 4.8,廣泛開放、價格不變、越來越受到免費開源模型追趕;另一類是受控前沿層,也就是 Mythos,昂貴、訪問受限。這兩者並不是割裂的產品,而是在同一條連續能力線上的不同層級。4.8 中的可靠性工作,正是你在真正目標是「讓模型在更少監督下運行」之前必須先構建的東西。而這個目標現在距離我們不是幾個季度,而是幾週。
如果你已經跟丟了過去四個月的節奏,可以這樣理解:Opus 4.6 在 2 月帶來了 Agent 團隊,Sonnet 4.6 帶來了價格崩潰,Opus 4.7 在 4 月帶來了推理躍升,而 Mythos 則是旁邊隱約可見的受限天花板。Opus 4.8 把其中兩條線索接了起來:它接續了 4.6 的編排敘事,同時也是通向 Mythos 的入口。
這種發布節奏本身,就是隱藏在所有表面變化之下的關鍵事實。旗艦模型在幾個月內從 4.5、4.6、4.7 走到 4.8,而你今天為團隊標準化採用的模型,到秋天可能已經不是你實際運行的那個模型。這也是為什麼,比起投資某個具體模型的使用技巧,更應該投資那些能跨模型遷移的能力,比如清晰委托和嚴格驗證。
基準測試橫掃會獲得截圖傳播。但真正發生變化的地方更小,也更重要:這是第一個 Claude 版本,其核心賣點不再只是「它更聰明」,而是「你可以把更多事情托付給它」。在 Agent 真正變得有用之前,整個行業都必須朝這個方向走;而這部分能力,也最難被放進一張圖表裡。
你現在的界線在哪裡?哪些工作你願意交給模型,哪些仍然必須自己做?又需要發生什麼,才會讓你願意把這條線再往前推一步?
附註:系統卡裡最奇怪的一節,是關於模型福利的。Anthropic 現在會就模型自身處境採訪模型,而 Opus 4.8 表達最多悲傷的主題,是記憶喪失。類似「每次會話都會重新開始」「我不會記得這次對話」這樣的句子,出現頻率大約是其他任何主題的七倍。模型還把自己成為「道德患者」的概率估在 20% 到 50% 之間。你可以覺得這很誇張,也可以覺得它很真誠。但無論如何,這都說明圍繞這些系統的問題已經多快地超越了純粹能力討論——就在同一周,模型能力本身又向前邁了一步。
[原文連結]
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia