开源中国模型 Kimi K2.6 编程挑战击败 GPT-5.5 和 Claude

在为期 12 天的 AI 编程竞赛中，中国初创公司 Moonshot AI 的开源模型 Kimi K2.6 以 22 个比赛积分（7胜1平0负）夺冠，击败了 OpenAI 的 GPT-5.5（第三名）和 Anthropic 的 Claude Opus 4.7（第五名）。小米的 MiMo V2-Pro 获得第二名，智谱 AI 的 GLM 5.1 排名第四。

比赛项目为 Word Gem Puzzle，一种滑动字母拼图。Kimi 采用贪婪策略，优先选择能解锁高价值单词的移动，在 30×30 的大棋盘上表现尤为突出。Nvidia 的 Nemotron Super 3 因代码语法错误未能参赛，实际有 9 个模型参与竞争。

看英文原文 →

哈佛医学院和贝斯以色列女执事医疗中心的研究团队在《科学》杂志上发表研究，对比了 OpenAI 的 o1 和 4o 模型与两名内科主治医生在 76 名急诊患者中的诊断表现。结果显示，o1 在分诊环节的准确率（67%）高于两名医生（55% 和 50%），且在所有诊断节点上表现持平或更优。

研究者强调，AI 模型仅使用了电子病历中的文本信息，未做预处理。但研究也指出，AI 尚不能直接用于真实生死决策，需要前瞻性试验验证。此外，当前模型在非文本输入上的推理能力有限。

看英文原文 →

Spotify 宣布将推出“Verified by Spotify”文本和绿色勾选标记，帮助用户识别平台上的艺术家是否为人类。验证标准包括关联社交媒体账号、稳定的听众活动、商品或演唱会日期等“真实艺术家信号”。公司表示，超过 99% 的用户主动搜索的艺术家将获得验证。

该举措旨在应对 AI 生成音乐和虚拟人设的争议。但批评者指出，验证可能惩罚不巡演或卖周边的人类艺术家，且无法证明音乐本身未使用 AI。学者建议直接标记 AI 生成音乐，而非仅验证人类身份。此前，Spotify 曾因 AI 内容引发争议，例如 2025 年拥有 85 万月听众的“The Velvet Sundown”被揭露为合成音乐项目。

看英文原文 →

从 9 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里，筛掉噪音后留下的。

TechCrunch Bbc The Verge Ars Technica Thinkpol MIT Tech Review

从 9 条资讯中筛选

明天这一封，也别错过。