← 全部存档
2026年5月4日 精选 3 条 · 今日共 3 条 · 约 3 分钟读完

开源中国模型 Kimi K2.6 编程挑战击败 GPT-5.5 和 Claude

今天扫了 9 条,留下这三件真正重要的事。不炸裂,不夸张,如实呈现。

在为期 12 天的 AI 编程竞赛中,中国初创公司 Moonshot AI 的开源模型 Kimi K2.6 以 22 个比赛积分(7胜1平0负)夺冠,击败了 OpenAI 的 GPT-5.5(第三名)和 Anthropic 的 Claude Opus 4.7(第五名)。小米的 MiMo V2-Pro 获得第二名,智谱 AI 的 GLM 5.1 排名第四。

比赛项目为 Word Gem Puzzle,一种滑动字母拼图。Kimi 采用贪婪策略,优先选择能解锁高价值单词的移动,在 30×30 的大棋盘上表现尤为突出。Nvidia 的 Nemotron Super 3 因代码语法错误未能参赛,实际有 9 个模型参与竞争。

看英文原文 →

哈佛医学院和贝斯以色列女执事医疗中心的研究团队在《科学》杂志上发表研究,对比了 OpenAI 的 o1 和 4o 模型与两名内科主治医生在 76 名急诊患者中的诊断表现。结果显示,o1 在分诊环节的准确率(67%)高于两名医生(55% 和 50%),且在所有诊断节点上表现持平或更优。

研究者强调,AI 模型仅使用了电子病历中的文本信息,未做预处理。但研究也指出,AI 尚不能直接用于真实生死决策,需要前瞻性试验验证。此外,当前模型在非文本输入上的推理能力有限。

看英文原文 →

Spotify 宣布将推出“Verified by Spotify”文本和绿色勾选标记,帮助用户识别平台上的艺术家是否为人类。验证标准包括关联社交媒体账号、稳定的听众活动、商品或演唱会日期等“真实艺术家信号”。公司表示,超过 99% 的用户主动搜索的艺术家将获得验证。

该举措旨在应对 AI 生成音乐和虚拟人设的争议。但批评者指出,验证可能惩罚不巡演或卖周边的人类艺术家,且无法证明音乐本身未使用 AI。学者建议直接标记 AI 生成音乐,而非仅验证人类身份。此前,Spotify 曾因 AI 内容引发争议,例如 2025 年拥有 85 万月听众的“The Velvet Sundown”被揭露为合成音乐项目。

看英文原文 →

从 9 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里,筛掉噪音后留下的。

明天这一封,也别错过。

每天一封,5 分钟读完。免费,随时退订。

去订阅 →