OpenResearcher 提出了一种完全可复现的管线,用于训练深度研究智能体。它通过离线搜索环境和三种浏览器原语(搜索、打开、查找),在包含 1500 万文档的语料库上合成超过 9.7 万条轨迹,其中包含大量长程(超过 100 次工具调用)轨迹。
使用 GPT-OSS-120B 作为教师模型,在 30B-A3B 骨干网络上进行监督微调,在 BrowseComp-Plus 上达到 54.8% 的准确率,相比基模型提升 34.0 个百分点。该管线已被 NVIDIA 的 Nemotron 模型家族采用,团队已开源全部代码、轨迹、模型和离线搜索环境。
看英文原文 →