据動察 Beating 監測,斯坦福 Erica Zhang 等人發布了經濟談判測試集 TERMS-Bench。它移除了黑箱的「大模型裁判」,讓評測方能直接看清模型到底輸在出價、讓步還是違規。
在常規測試中,Claude Opus 4.6 和智譜 GLM 5.1 拿下前兩名。論文發現,它們採用了「高出價、死不讓步」的強硬策略,在利潤豐厚的順風局能把對手榨乾。
但在利潤空間極窄的最高難度局,強硬策略會因為頻繁談崩而虧損。榜單在這裡直接翻車:懂得適度讓步保訂單的 Gemma 4 31B(開放權重模型)和 Gemini 3.1 Pro 反超衝到前兩名;而此前的領跑者 Claude 掉到第 5,GLM 掉到第 9。
除了測試極限難度,該基準最具衝擊力的是測試生存能力的 Bankroll(資金池)模式。單次談判被拉長成連續採購:每個 Agent 拿 100 美元本金連談 50 期,每期固定扣運營費,虧完就破產。在這裡,微小的談判失誤都會複利成破產危機。
結果顯示,前述的 GLM 5.1、Claude Opus 4.6 以及谷歌雙雄雖然策略不同,但控盤能力斷層領先,全部實現了 100% 存活,最終現金均達到了 380 到 443 美元。相比之下,Grok 4.20 和 GPT-4o-mini 則無法頂住現金流損耗,破產率分別達到 25% 和 50%。
TERMS-Bench 的關鍵不在成交率,而在把談判錯誤換算成現金虧損和破產風險。模型能不能說服對手,只是第一層;在連續交易裡能不能守住利潤和現金流,才真正拉開差距。