← 全部存档
2026年3月5日 精选 3 条 · 今日共 3 条 · 约 3 分钟读完

高纳德·克努特:我研究了数周的问题被 Claude Opus 4.6 解决了

今天扫了 10 条,留下这三件真正重要的事。不炸裂,不夸张,如实呈现。

计算机科学家高纳德·克努特(Donald Knuth)近日表示,他研究了数周的一个开放问题,被 Anthropic 三周前发布的混合推理模型 Claude Opus 4.6 解决了。克努特称这一消息令他震惊,并感叹自己或许需要重新审视对“生成式 AI”的看法。

克努特还表示,得知自己的猜想有一个漂亮的解法,并见证自动推理与创造性问题解决的这一戏剧性进步,令他感到喜悦。该引述由 Simon Willison 收集并于 2026 年 3 月 3 日发布。

看英文原文 →

Qwen3-Coder-Next 是一个 800 亿参数的语言模型,但在推理时仅激活 30 亿参数,通过可验证任务合成与强化学习进行智能体训练,实现了强大的编码能力。该模型专为编码智能体设计,在 SWE-Bench 和 Terminal-Bench 等基准测试中,相对于其激活参数数量取得了有竞争力的性能。

研究团队探索了强训练方法如何将小参数模型的性能推向极限,通过大规模合成可验证编码任务并配合可执行环境,使模型能够通过中期训练和强化学习直接从环境反馈中学习。团队已发布基础版和指令微调版的开源权重,以支持研究和实际编码智能体开发。

看英文原文 →

当前代码智能体基准主要评估狭窄的仓库内修复,忽略了跨仓库推理、领域专业问题解决、依赖迁移和全仓库生成等真实挑战。为此,研究团队引入了 BeyondSWE 基准,包含 500 个真实世界实例,覆盖四个不同场景,以扩展评估的解决范围和知识范围。

实验结果显示,即使是最前沿的模型,成功率也低于 45%,且没有单一模型能在所有任务类型上表现一致。此外,团队开发了 SearchSWE 框架来研究外部知识整合,发现搜索增强带来的收益不稳定,有时甚至会降低性能,表明将搜索与推理整合到编码工作流中仍是一个开放问题。

看英文原文 →

从 10 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里,筛掉噪音后留下的。

明天这一封,也别错过。

每天一封,5 分钟读完。免费,随时退订。

去订阅 →