Qwen3-Coder-Next 是一个 800 亿参数的语言模型,但在推理时仅激活 30 亿参数,通过可验证任务合成与强化学习进行智能体训练,实现了强大的编码能力。该模型专为编码智能体设计,在 SWE-Bench 和 Terminal-Bench 等基准测试中,相对于其激活参数数量取得了有竞争力的性能。
研究团队探索了强训练方法如何将小参数模型的性能推向极限,通过大规模合成可验证编码任务并配合可执行环境,使模型能够通过中期训练和强化学习直接从环境反馈中学习。团队已发布基础版和指令微调版的开源权重,以支持研究和实际编码智能体开发。
看英文原文 →