谷歌雙雄高難局反超，TERMS-Bench把AI談判做成破產壓力測試

据動察 Beating 監測，斯坦福 Erica Zhang 等人發布了經濟談判測試集 TERMS-Bench。它移除了黑箱的「大模型裁判」，讓評測方能直接看清模型到底輸在出價、讓步還是違規。

在常規測試中，Claude Opus 4.6 和智譜 GLM 5.1 拿下前兩名。論文發現，它們採用了「高出價、死不讓步」的強硬策略，在利潤豐厚的順風局能把對手榨乾。

但在利潤空間極窄的最高難度局，強硬策略會因為頻繁談崩而虧損。榜單在這裡直接翻車：懂得適度讓步保訂單的 Gemma 4 31B（開放權重模型）和 Gemini 3.1 Pro 反超衝到前兩名；而此前的領跑者 Claude 掉到第 5，GLM 掉到第 9。

除了測試極限難度，該基準最具衝擊力的是測試生存能力的 Bankroll（資金池）模式。單次談判被拉長成連續採購：每個 Agent 拿 100 美元本金連談 50 期，每期固定扣運營費，虧完就破產。在這裡，微小的談判失誤都會複利成破產危機。

結果顯示，前述的 GLM 5.1、Claude Opus 4.6 以及谷歌雙雄雖然策略不同，但控盤能力斷層領先，全部實現了 100% 存活，最終現金均達到了 380 到 443 美元。相比之下，Grok 4.20 和 GPT-4o-mini 則無法頂住現金流損耗，破產率分別達到 25% 和 50%。

TERMS-Bench 的關鍵不在成交率，而在把談判錯誤換算成現金虧損和破產風險。模型能不能說服對手，只是第一層；在連續交易裡能不能守住利潤和現金流，才真正拉開差距。

原文鏈接

糾錯/舉報