EnvFactory是一个全自动化框架,能够从真实资源自主探索和验证可执行的工具环境,并通过拓扑感知采样和校准优化合成自然的多轮轨迹。它解决了现有方法依赖昂贵API、易幻觉模拟器或单轮合成环境的问题。
仅使用7个领域的85个验证环境,EnvFactory生成了2575条监督微调和强化学习轨迹。相比此前需要5倍以上环境的工作,EnvFactory在训练效率和下游性能上更优,使Qwen3系列模型在BFCLv3上提升最高15%,在MCP-Atlas上提升8.6%,在对话基准上提升6%。
看英文原文 →