header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

谷歌雙雄高難局反超,TERMS-Bench把AI談判做成破產壓力測試

動察 Beating 監測,斯坦福 Erica Zhang 等人發布了經濟談判測試集 TERMS-Bench。它移除了黑箱的「大模型裁判」,讓評測方能直接看清模型到底輸在出價、讓步還是違規。

在常規測試中,Claude Opus 4.6 和智譜 GLM 5.1 拿下前兩名。論文發現,它們採用了「高出價、死不讓步」的強硬策略,在利潤豐厚的順風局能把對手榨乾。

但在利潤空間極窄的最高難度局,強硬策略會因為頻繁談崩而虧損。榜單在這裡直接翻車:懂得適度讓步保訂單的 Gemma 4 31B(開放權重模型)和 Gemini 3.1 Pro 反超衝到前兩名;而此前的領跑者 Claude 掉到第 5,GLM 掉到第 9。

除了測試極限難度,該基準最具衝擊力的是測試生存能力的 Bankroll(資金池)模式。單次談判被拉長成連續採購:每個 Agent 拿 100 美元本金連談 50 期,每期固定扣運營費,虧完就破產。在這裡,微小的談判失誤都會複利成破產危機。

結果顯示,前述的 GLM 5.1、Claude Opus 4.6 以及谷歌雙雄雖然策略不同,但控盤能力斷層領先,全部實現了 100% 存活,最終現金均達到了 380 到 443 美元。相比之下,Grok 4.20 和 GPT-4o-mini 則無法頂住現金流損耗,破產率分別達到 25% 和 50%。

TERMS-Bench 的關鍵不在成交率,而在把談判錯誤換算成現金虧損和破產風險。模型能不能說服對手,只是第一層;在連續交易裡能不能守住利潤和現金流,才真正拉開差距。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成