Hugging Face 開源 ml-intern，自動讀論文、選數據、跑訓練的 ML 研究代理

据動察 Beating 監測，Hugging Face 開源 ml-intern，一個能自主完成「讀論文、整理數據集、啟動 GPU 訓練、評估結果、迭代改進」全流程的 ML 研究代理。項目基於自家 smolagents 框架構建，提供 CLI 和網頁端兩種入口，代碼在 GitHub 開源。

ml-intern 的工具鏈圍繞 Hugging Face 生態搭建：在 arXiv 和 HF Papers 上檢索論文並沿引用鏈深讀；瀏覽 HF Hub 上的數據集，檢查質量後重新格式化再投入訓練；本地沒有 GPU 時可調用 HF Jobs 啟動雲端訓練任務，訓練結束後自動讀取評估輸出、診斷失敗原因並重跑。默認調用 Claude Sonnet 4.5 驅動決策迴圈，單次最多迭代 300 輪，上下文超過 170k token 自動壓縮。

Hugging Face 在發布帖中給出三個案例。科學推理任務中，代理從基準論文的引用鏈裡找到 OpenScience 和 NemoTron-CrossThink 數據集，從 ARC、SciQ、MMLU 中按困難度過濾出 7 個變體，在 Qwen3-1.7B 上跑了 12 輪 SFT，GPQA 得分從 10% 提到 32%，耗時不到 10 小時。醫療場景中，代理判斷現有數據集質量不夠，自行編寫腳本生成 1100 條合成數據並擴增 50 倍用於訓練，在 HealthBench 上超過 Codex 60%。競賽數學場景中，代理自行編寫 GRPO 訓練腳本並在 A100 上通過 HF Spaces 啟動訓練，觀測到獎勵塌縮後跑消融實驗排查原因。

原文鏈接

糾錯/舉報