Google 公開了合成數據引擎 Simula，無需使用真實數據即可從零開始批量生成專用訓練集。

据動察 Beating 監測，Google 研究團隊發表論文公開了 Simula，一個將合成資料生成從「逐條造數據」升級為「設計整個數據集」的框架，論文發表在《Transactions on Machine Learning Research》上。Simula 已在 Google 內部大規模部署，是 Gemma 系列中 ShieldGemma（安全過濾）、MedGemma（醫療）、FunctionGemma（函數呼叫）等專用模型的主要數據來源，也為 Gemini 安全分類器、Android 通話詐騙檢測和 Google Messages 垃圾訊息過濾提供訓練數據。

現有合成數據方法大多一次只優化一條數據，依賴人工提示詞或真實數據作為種子，無法精確控制數據集整體的覆蓋範圍、難度分佈和質量。Simula 完全不需要種子數據，而是讓推理模型從零構建整個數據集，分四步獨立控制：

1. 全域多樣性：推理模型將目標領域遞歸拆解為階層知識樹（如網路安全威脅的完整分類體系），以此為骨架確保數據覆蓋長尾場景
2. 局部多樣性：在每個知識節點下生成多種不同場景和表述，防止同一概念千篇一律
3. 複雜化：可配置比例地將部分場景提升難度，獨立調節數據集的難度分佈
4. 質量控制：雙評審員機制獨立判斷每條數據的正確性，抵消模型傾向於認同看似合理答案的偏差

研究團隊用 Gemini 2.5 Flash 做教師模型、Gemma-3 4B 做學生模型，在網路安全、法律推理、小學數學（GSM8k）、多語言學術知識（Global MMLU）五個領域各生成最多 51.2 萬條數據進行測試。完整 Simula 流程在所有領域均優於簡化方案，但沒有通用配方：高難度數據在數學推理上帶來 10% 的準確率提升，在法律推理上反而拖累表現，原因是教師模型在該領域能力較弱，生成的高難度數據質量不可靠。更關鍵的發現是，Simula 用更少的數據達到了更高的下游性能，數據質量而非數量在驅動模型進步。

原文鏈接

糾錯/舉報