header-langage
简体中文
繁體中文
English
Tiếng Việt
한국어
日本語
ภาษาไทย
Türkçe
掃碼下載APP

Google 公開了合成數據引擎 Simula,無需使用真實數據即可從零開始批量生成專用訓練集。

動察 Beating 監測,Google 研究團隊發表論文公開了 Simula,一個將合成資料生成從「逐條造數據」升級為「設計整個數據集」的框架,論文發表在《Transactions on Machine Learning Research》上。Simula 已在 Google 內部大規模部署,是 Gemma 系列中 ShieldGemma(安全過濾)、MedGemma(醫療)、FunctionGemma(函數呼叫)等專用模型的主要數據來源,也為 Gemini 安全分類器、Android 通話詐騙檢測和 Google Messages 垃圾訊息過濾提供訓練數據。

現有合成數據方法大多一次只優化一條數據,依賴人工提示詞或真實數據作為種子,無法精確控制數據集整體的覆蓋範圍、難度分佈和質量。Simula 完全不需要種子數據,而是讓推理模型從零構建整個數據集,分四步獨立控制:

1. 全域多樣性:推理模型將目標領域遞歸拆解為階層知識樹(如網路安全威脅的完整分類體系),以此為骨架確保數據覆蓋長尾場景
2. 局部多樣性:在每個知識節點下生成多種不同場景和表述,防止同一概念千篇一律
3. 複雜化:可配置比例地將部分場景提升難度,獨立調節數據集的難度分佈
4. 質量控制:雙評審員機制獨立判斷每條數據的正確性,抵消模型傾向於認同看似合理答案的偏差

研究團隊用 Gemini 2.5 Flash 做教師模型、Gemma-3 4B 做學生模型,在網路安全、法律推理、小學數學(GSM8k)、多語言學術知識(Global MMLU)五個領域各生成最多 51.2 萬條數據進行測試。完整 Simula 流程在所有領域均優於簡化方案,但沒有通用配方:高難度數據在數學推理上帶來 10% 的準確率提升,在法律推理上反而拖累表現,原因是教師模型在該領域能力較弱,生成的高難度數據質量不可靠。更關鍵的發現是,Simula 用更少的數據達到了更高的下游性能,數據質量而非數量在驅動模型進步。

举报 糾錯/舉報
糾錯/舉報
提交
新增文庫
僅自己可見
公開
保存
選擇文庫
新增文庫
取消
完成