据動察 Beating 監測,Hugging Face 開源 ml-intern,一個能自主完成「讀論文、整理數據集、啟動 GPU 訓練、評估結果、迭代改進」全流程的 ML 研究代理。項目基於自家 smolagents 框架構建,提供 CLI 和網頁端兩種入口,代碼在 GitHub 開源。
ml-intern 的工具鏈圍繞 Hugging Face 生態搭建:在 arXiv 和 HF Papers 上檢索論文並沿引用鏈深讀;瀏覽 HF Hub 上的數據集,檢查質量後重新格式化再投入訓練;本地沒有 GPU 時可調用 HF Jobs 啟動雲端訓練任務,訓練結束後自動讀取評估輸出、診斷失敗原因並重跑。默認調用 Claude Sonnet 4.5 驅動決策迴圈,單次最多迭代 300 輪,上下文超過 170k token 自動壓縮。
Hugging Face 在發布帖中給出三個案例。科學推理任務中,代理從基準論文的引用鏈裡找到 OpenScience 和 NemoTron-CrossThink 數據集,從 ARC、SciQ、MMLU 中按困難度過濾出 7 個變體,在 Qwen3-1.7B 上跑了 12 輪 SFT,GPQA 得分從 10% 提到 32%,耗時不到 10 小時。醫療場景中,代理判斷現有數據集質量不夠,自行編寫腳本生成 1100 條合成數據並擴增 50 倍用於訓練,在 HealthBench 上超過 Codex 60%。競賽數學場景中,代理自行編寫 GRPO 訓練腳本並在 A100 上通過 HF Spaces 啟動訓練,觀測到獎勵塌縮後跑消融實驗排查原因。