英伟达发布Nemotron-Cascade 2,一个30B参数的混合专家(MoE)模型,仅3B激活参数,却实现了卓越的推理和智能体能力,在数学和编码推理方面接近前沿开放模型。它是继DeepSeekV3.2-Speciale-671B-A37B之后,第二个在2025年国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)和ICPC世界决赛中达到金牌水平的开放权重LLM,参数数量减少20倍,展现出极高的智能密度。
与Nemotron-Cascade 1相比,关键技术进展包括:在精心策划的数据集上进行SFT后,大幅扩展Cascade RL以覆盖更广泛的推理和智能体领域;并在整个Cascade RL过程中引入多领域在线蒸馏,从每个领域最强的中间教师模型中学习,有效恢复基准回归并保持强劲的性能提升。英伟达已开源模型检查点和训练数据。
看英文原文 →