高纳德·克努特：我研究了数周的问题被 Claude Opus 4.6 解决了

计算机科学家高纳德·克努特（Donald Knuth）近日表示，他研究了数周的一个开放问题，被 Anthropic 三周前发布的混合推理模型 Claude Opus 4.6 解决了。克努特称这一消息令他震惊，并感叹自己或许需要重新审视对“生成式 AI”的看法。

克努特还表示，得知自己的猜想有一个漂亮的解法，并见证自动推理与创造性问题解决的这一戏剧性进步，令他感到喜悦。该引述由 Simon Willison 收集并于 2026 年 3 月 3 日发布。

看英文原文 →

Qwen3-Coder-Next 是一个 800 亿参数的语言模型，但在推理时仅激活 30 亿参数，通过可验证任务合成与强化学习进行智能体训练，实现了强大的编码能力。该模型专为编码智能体设计，在 SWE-Bench 和 Terminal-Bench 等基准测试中，相对于其激活参数数量取得了有竞争力的性能。

研究团队探索了强训练方法如何将小参数模型的性能推向极限，通过大规模合成可验证编码任务并配合可执行环境，使模型能够通过中期训练和强化学习直接从环境反馈中学习。团队已发布基础版和指令微调版的开源权重，以支持研究和实际编码智能体开发。

看英文原文 →

当前代码智能体基准主要评估狭窄的仓库内修复，忽略了跨仓库推理、领域专业问题解决、依赖迁移和全仓库生成等真实挑战。为此，研究团队引入了 BeyondSWE 基准，包含 500 个真实世界实例，覆盖四个不同场景，以扩展评估的解决范围和知识范围。

实验结果显示，即使是最前沿的模型，成功率也低于 45%，且没有单一模型能在所有任务类型上表现一致。此外，团队开发了 SearchSWE 框架来研究外部知识整合，发现搜索增强带来的收益不稳定，有时甚至会降低性能，表明将搜索与推理整合到编码工作流中仍是一个开放问题。

看英文原文 →

从 10 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里，筛掉噪音后留下的。

Simonwillison Hugging Face

从 10 条资讯中筛选

明天这一封，也别错过。