OpenSeeker是首个全开源搜索代理(模型和数据均开源),通过两项技术创新实现前沿性能:事实可扩展可控QA合成,通过拓扑扩展和实体混淆逆向工程网页图,生成复杂多跳推理任务;去噪轨迹合成,采用回顾性总结机制提升教师LLM生成高质量动作。
仅用11.7k合成样本进行单次SFT训练,OpenSeeker在BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch等多个基准上达到最先进水平。在BrowseComp上,OpenSeeker得分29.5%,远超第二名全开源代理Deep Dive的15.3%;在BrowseComp-ZH上甚至超越通义Deep Research(48.4% vs 46.7%)。完整训练数据集和模型权重已开源。
看英文原文 →