据动察 Beating 监测,马克斯·普朗克智能系统研究所博士生 Ricardo Dominguez-Olmedo 对 Alec Radford 等人此前发布的「復古語言模型」talkie-1930(13B 參數,只用 1931 年前英文文本預訓練,從未接觸過代碼)做了 SWE-bench 微調實驗。
僅用 250 個訓練樣本,模型就解出了第一個真實 GitHub issue(xarray 庫的一個補丁)。擴展到約 75,000 條 agent 軌跡(1B tokens)後,SWE-bench Verified pass@1 達到 4.5%。作為對照,架構和算力完全相同、但用現代網絡數據預訓練的 talkie-web,同樣流程微調後 pass@1 為 5.75%,僅高出約 1.3 個百分點。Dominguez-Olmedo 稱「扔掉整個互聯網,損失少得出乎意料」。
訓練在 8 塊 B200 GPU 上跑了約 12 小時,上下文長度 64K。模型權重和完整訓練代碼已在 HuggingFace 和 GitHub 開源。