← 全部存档
2026年6月21日 精选 3 条 · 今日共 12 条 · 约 16 分钟读完

诺贝尔奖得主 John Jumper 离开 DeepMind 加入 Anthropic

今天扫了 46 条,留下这三件真正重要的事。不炸裂,不夸张,如实呈现。

2024 年诺贝尔化学奖得主 John Jumper 于周五宣布,在 Google DeepMind 工作近 9 年后,他将加入 AI 公司 Anthropic。据 Bloomberg 报道,Jumper 在 X 平台上发文称,DeepMind CEO Demis Hassabis 在他博士毕业仅 6 个月后就让他领导 AlphaFold 团队,给了他真正的机会,整个团队教会了他如何做伟大的科学。Jumper 还表示 DeepMind 是一个特别的地方,他仍会为团队未来的发现感到兴奋。

Jumper 因开发 AlphaFold 而闻名,该模型能根据基因序列预测蛋白质的 3D 结构,他与 Hassabis 因此共同获得 2024 年诺贝尔化学奖。据 Bloomberg 报道,Jumper 曾是 Google 开发编码工具团队的关键成员,而该工具在向企业销售时遇到困难。与此同时,Character AI 联合创始人 Noam Shazeer 本周也宣布离开 DeepMind,但 Shazeer 将加入 OpenAI。

Jumper 的离职是近期 DeepMind 人才流失的又一例证。Anthropic 作为 OpenAI 的主要竞争对手,正在积极吸纳顶尖 AI 人才。Jumper 在 X 上的告别帖中感谢了 DeepMind 团队,但未透露他在 Anthropic 的具体职责。

Jumper 在 DeepMind 近 9 年 Shazeer 加入 OpenAI Anthropic 持续吸纳顶尖人才
看英文原文 →

Signal 总裁 Meredith Whittaker 在接受 Bloomberg 采访时,就 ChatGPT 和 Claude 等聊天机器人的隐私影响发表了看法。她直言:“这些不是你的朋友。这些不是有意识的生物。这些不是有感知的对话者。”Whittaker 承认自己会使用 AI 工具“偶尔格式化文档”,但坚持“我不会向它们提问。我非常认真对待自己的思考和写作,我不希望思考的过程被一个平均已有内容的系统的回应所阻断或遮蔽。”

针对 Microsoft AI CEO Mustafa Suleyman 关于用户今年可让 Microsoft Copilot 处理所有圣诞购物的预测,Whittaker 指出,这一场景——Copilot 监听家庭群聊以确定每个人想要什么——意味着给予它“访问我的信用卡、浏览器、Signal、代表我向兄弟姐妹发消息的能力、家庭地址和日历”的权限。她强调:“你所描述的正是跨多个应用和服务拥有广泛访问权限的系统。在 Signal 的语境中,这构成了一种后门。”

Whittaker 的评论凸显了 AI 工具与隐私之间的紧张关系。

Whittaker 称 AI 不是朋友 Copilot 购物场景被指后门 她只偶尔用 AI 格式化文档
看英文原文 →

一项新的基准测试显示,大型 AI 模型的幻觉问题并未随规模扩大而改善。据 Hacker News 上的一篇分析文章,Z.ai 的 GLM-5.2(753B 参数,约 40B 活跃)在 AA-Omniscience 基准上的幻觉率为 28%,而 OpenAI 的 GPT-5.5(估计 1-2T 参数)高达 86%,Anthropic 的 Fable 5 为 48%,Opus 4.8 为 36%。DeepSeek V4 Pro(1.6T 参数,49B 活跃)更是达到 94% 的幻觉率,意味着在它无法回答的问题上,仅有约 6% 的时间承认不知道,其余时间则自信地编造答案。

文章指出,更大的模型并不总是更好。尽管在 Artificial Analysis Intelligence Index 上,大模型得分更高,但 GLM-5.2 与 GPT-5.5 仅差 4 分,与 Fable 5 差 9 分,而 GLM-5.2 是 MIT 许可的开源模型,参数规模仅为后者的约一半。作者认为,实际智能已明显趋于平台期。测试还显示,DeepSeek V4 Pro 在处理一个相对复杂的 Python 问题时,花费近 10 倍的推理 token 却给出了自信的错误答案,而 GLM-5.2 仅用 12 秒和约 800 个推理 token 就识别出了技术上的不可能性。

文章警告,行业不应盲目增加推理预算、语料库规模或参数数量。DeepSeek V4 Pro 花了 3 分 26 秒在推理循环中浪费算力,最终生成结构完美但自信错误的答案,而规模只有其一半的模型却几乎瞬间识别出悖论。作者认为,现代 LLM 面临一个未解决的三难困境:原始能力、不确定性校准/幻觉率、计算效率。

GPT-5.5 幻觉率 86% GLM-5.2 幻觉率仅 28% DeepSeek V4 Pro 幻觉率 94%
看英文原文 →
更多

从 46 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里,筛掉噪音后留下的。

明天这一封,也别错过。

每天一封,5 分钟读完。免费,随时退订。

去订阅 →