沒見過計算機的 1930 年模型，微調後能解 SWE-bench

据动察 Beating 监测，马克斯·普朗克智能系统研究所博士生 Ricardo Dominguez-Olmedo 对 Alec Radford 等人此前发布的「復古語言模型」talkie-1930（13B 參數，只用 1931 年前英文文本預訓練，從未接觸過代碼）做了 SWE-bench 微調實驗。

僅用 250 個訓練樣本，模型就解出了第一個真實 GitHub issue（xarray 庫的一個補丁）。擴展到約 75,000 條 agent 軌跡（1B tokens）後，SWE-bench Verified pass@1 達到 4.5%。作為對照，架構和算力完全相同、但用現代網絡數據預訓練的 talkie-web，同樣流程微調後 pass@1 為 5.75%，僅高出約 1.3 個百分點。Dominguez-Olmedo 稱「扔掉整個互聯網，損失少得出乎意料」。

訓練在 8 塊 B200 GPU 上跑了約 12 小時，上下文長度 64K。模型權重和完整訓練代碼已在 HuggingFace 和 GitHub 開源。

原文鏈接

糾錯/舉報