header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

「我不需要更好的模型了」:Reddit熱帖下的AI眾生相

閱讀本文需 9 分鐘
對於一款主打能力跳躍的旗艦產品,「為安全投入的可用性代價」正在成為使用者決定是否付款的核心變數。
原文標題:《「我不需要更好的模型了」:Reddit 熱帖下的 AI 眾生相》
原文作者:星期五,深潮 TechFlow


Anthropic 剛剛交出了一份紙面上無可挑剔的成績單。


6 月 9 日發布的 Claude Fable 5 是該公司首個面向公眾開放的 Mythos 級模型,在真實軟體工程任務基準 SWE-Bench Pro 上拿下 80.3%,領先自家上一代旗艦 Opus 4.8 約 11 個百分點,領先 GPT-5.5 超過 20 個百分點。


但用戶的反應潑了一盆冷水。


發布三天後,r/artificial 版塊(周訪問量 30.5 萬)的一篇熱帖標題寫道:「Claude Fable 讓我意識到,我不需要更好的模型了。」


發帖人 Axi0m-22 說,他用 Fable 跑了一段時間安全研究和日常工作,然後幾乎立刻切回了 Opus 寫程式碼、Haiku 處理雜活。他打了個比方:這就像拿著 iPhone 14 看 iPhone 17 發布,「你知道新的更好,但你想的是:算了,我這個挺好。」



高贊區被「夠用派」占領:模型審美疲勞成主流情緒


排名第一的評論獲得 42 個贊:「除了更大的上下文視窗,我從 Opus 4.5 開始就不再覺得需要更強的模型了。


另一位用戶 hyprlab 的表態拿到 13 個贊:「換一個燒 token 更狠的模型,我看不到對我工作流的好處,Opus 4.8 高強度模式已經足夠舒服。」


這類發言背後有一個共同的成本帳本。


Fable 5 的 API 定價為每百萬輸入 token 10 美元,接近 Opus 4.8 的兩倍。用戶 siromega37 說得直白:「token 消耗更高,但沒有投資回報。我覺得我們正在看到平臺期,泡沫終將被刺破。」


用戶 hobopwnzor 給出了更系統的解釋:「我們已經在 S 型曲線的頂部待了一陣子。近期的進步主要來自工具調用和外圍工程,不是模型本身的能力。」


安全護欄成最大槽點:「90% 的用途直接被拒」


如果說「夠用」還只是情緒,那麼對安全護欄的抱怨就是具體的產品問題了。


按照 Anthropic 官方說明,Fable 5 與僅向少數機構開放的 Mythos 5 共享同一底層模型,區別在於 Fable 加裝了安全分類器:涉及網絡安全等高風險領域的請求會被攔截,轉由 Opus 4.8 代答。官方稱這套機制調校得偏保守,平均在不到 5% 的會話中觸發,且會誤傷無害請求。


在這條 Reddit 帖子下,觸發率的體感顯然遠高於 5%。獲得 17 個讚的用戶 jradoff 說,他讓 Fable 檢查自己碼的安全性,結果「只要提到安全相關的事,它基本都拒絕處理」,然後被回退到 Opus。另一條 12 讚的評論更不客氣:「你想用它幹的事 90% 都會被拒,等於沒用。」


付費用戶的怨氣更重。訂閱 200 美元檔位的用戶 kaitava 寫道:「我付著雙倍的用量費,想讓它做一次安全審查,結果被降級到 Opus。這下我對它的一切都不喜歡了,就等 OpenAI 追上來。」


對於一款主打能力躍遷的旗艦產品,「為安全付出的可用性代價」正在成為用戶決定是否買單的核心變量。


反方聲音:重度任務用戶的體感是「夜與日」


熱帖之下並非沒有反對者,而且反方的畫像相當清晰:任務越重,評價越高。


用戶 Phylaras 的評論拿到 15 個讚:「Fable 對我產生了實質區別。那些對上下文窗口要求巨大的複雜任務,它抓出了之前沒被發現的錯誤。」一位自稱在做高能物理仿真的用戶表示,單個仿真模型動輒 8000 到 1 萬行碼、上百個模型相互作用,「有個能獨立連續工作、理解環境細節的模型,對我來說太值得期待了」。



最激烈的反駁來自用戶 Navetz:「說實話,用過這個模型的人會覺得這種帖子是瘋話。對我來說它聰明得判若兩人,我一直在不停地用。我跟非技術朋友解釋:這相當於從大學生球員直接換成 NBA 首發。」


也有人給出了折中的用法。用戶 ready-eddy 建議把 Fable 當「規劃者和修復者」,而不是日常的「建造者」,除非不在乎燒錢。另一條評論總結得更像使用手冊:用 Fable 算表格是選錯了模型,用 Haiku 跑 16 個智能體的複雜任務同樣是選錯了模型,「不存在天生的壞模型,只有用錯場景的模型」。


跑分與體感脫鉤之後,公開 AI 還會更強嗎


這場爭論裡最有趣的一條評論,把話題從產品引向了行業結構。


用戶 KedMcJenna 提出了一個「公開 AI 凍結論」:普通人能摸到的模型可能會永遠停在當前水平附近,而企業和政府精英將持續獲得更強的私有模型,「我們知道的至少有 Mythos,很可能還有更強的、我們永遠不會聽說的模型」。


這條評論指向一個事實:Mythos 5 確實不對公眾開放,目前僅通過 Project Glasswing 計劃提供給網絡防禦機構和關鍵基礎設施企業。


把跑分和輿情放在一起看,結論並不矛盾。


基準測試衡量的是能力上限,而 Reddit 高贊區反映的是日常需求的天花板。當大多數用戶的任務在 Opus 4.6 時代就已被滿足,更強的模型只能在物理仿真、超長上下文這類極端場景裡證明自己。模型廠商面對的不再是「做不做得到」的問題,而是「誰需要、願意付多少錢、能容忍多少安全摩擦」的問題。


發布三天,Fable 5 在跑分榜和輿論場拿到了兩份完全不同的成績單。哪一份更接近真相,要看 Anthropic 接下來調整安全分類器的速度,以及重度用戶的錢包投票。


原文鏈接


歡迎加入律動 BlockBeats 官方社群:

Telegram 訂閱群:https://t.me/theblockbeats

Telegram 交流群:https://t.me/BlockBeats_App

Twitter 官方帳號:https://twitter.com/BlockBeatsAsia

举报 糾錯/舉報
選擇文庫
新增文庫
取消
完成
新增文庫
僅自己可見
公開
保存
糾錯/舉報
提交