header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

沒見過計算機的 1930 年模型,微調後能解 SWE-bench

动察 Beating 监测,马克斯·普朗克智能系统研究所博士生 Ricardo Dominguez-Olmedo 对 Alec Radford 等人此前发布的「復古語言模型」talkie-1930(13B 參數,只用 1931 年前英文文本預訓練,從未接觸過代碼)做了 SWE-bench 微調實驗。

僅用 250 個訓練樣本,模型就解出了第一個真實 GitHub issue(xarray 庫的一個補丁)。擴展到約 75,000 條 agent 軌跡(1B tokens)後,SWE-bench Verified pass@1 達到 4.5%。作為對照,架構和算力完全相同、但用現代網絡數據預訓練的 talkie-web,同樣流程微調後 pass@1 為 5.75%,僅高出約 1.3 個百分點。Dominguez-Olmedo 稱「扔掉整個互聯網,損失少得出乎意料」。

訓練在 8 塊 B200 GPU 上跑了約 12 小時,上下文長度 64K。模型權重和完整訓練代碼已在 HuggingFace 和 GitHub 開源。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成