2024 年诺贝尔化学奖得主 John Jumper 于周五宣布,在 Google DeepMind 工作近 9 年后,他将加入 AI 公司 Anthropic。据 Bloomberg 报道,Jumper 在 X 平台上发文称,DeepMind CEO Demis Hassabis 在他博士毕业仅 6 个月后就让他领导 AlphaFold 团队,给了他真正的机会,整个团队教会了他如何做伟大的科学。Jumper 还表示 DeepMind 是一个特别的地方,他仍会为团队未来的发现感到兴奋。
Jumper 因开发 AlphaFold 而闻名,该模型能根据基因序列预测蛋白质的 3D 结构,他与 Hassabis 因此共同获得 2024 年诺贝尔化学奖。据 Bloomberg 报道,Jumper 曾是 Google 开发编码工具团队的关键成员,而该工具在向企业销售时遇到困难。与此同时,Character AI 联合创始人 Noam Shazeer 本周也宣布离开 DeepMind,但 Shazeer 将加入 OpenAI。
Jumper 的离职是近期 DeepMind 人才流失的又一例证。Anthropic 作为 OpenAI 的主要竞争对手,正在积极吸纳顶尖 AI 人才。Jumper 在 X 上的告别帖中感谢了 DeepMind 团队,但未透露他在 Anthropic 的具体职责。
Signal 总裁 Meredith Whittaker 在接受 Bloomberg 采访时,就 ChatGPT 和 Claude 等聊天机器人的隐私影响发表了看法。她直言:“这些不是你的朋友。这些不是有意识的生物。这些不是有感知的对话者。”Whittaker 承认自己会使用 AI 工具“偶尔格式化文档”,但坚持“我不会向它们提问。我非常认真对待自己的思考和写作,我不希望思考的过程被一个平均已有内容的系统的回应所阻断或遮蔽。”
针对 Microsoft AI CEO Mustafa Suleyman 关于用户今年可让 Microsoft Copilot 处理所有圣诞购物的预测,Whittaker 指出,这一场景——Copilot 监听家庭群聊以确定每个人想要什么——意味着给予它“访问我的信用卡、浏览器、Signal、代表我向兄弟姐妹发消息的能力、家庭地址和日历”的权限。她强调:“你所描述的正是跨多个应用和服务拥有广泛访问权限的系统。在 Signal 的语境中,这构成了一种后门。”
Whittaker 的评论凸显了 AI 工具与隐私之间的紧张关系。
一项新的基准测试显示,大型 AI 模型的幻觉问题并未随规模扩大而改善。据 Hacker News 上的一篇分析文章,Z.ai 的 GLM-5.2(753B 参数,约 40B 活跃)在 AA-Omniscience 基准上的幻觉率为 28%,而 OpenAI 的 GPT-5.5(估计 1-2T 参数)高达 86%,Anthropic 的 Fable 5 为 48%,Opus 4.8 为 36%。DeepSeek V4 Pro(1.6T 参数,49B 活跃)更是达到 94% 的幻觉率,意味着在它无法回答的问题上,仅有约 6% 的时间承认不知道,其余时间则自信地编造答案。
文章指出,更大的模型并不总是更好。尽管在 Artificial Analysis Intelligence Index 上,大模型得分更高,但 GLM-5.2 与 GPT-5.5 仅差 4 分,与 Fable 5 差 9 分,而 GLM-5.2 是 MIT 许可的开源模型,参数规模仅为后者的约一半。作者认为,实际智能已明显趋于平台期。测试还显示,DeepSeek V4 Pro 在处理一个相对复杂的 Python 问题时,花费近 10 倍的推理 token 却给出了自信的错误答案,而 GLM-5.2 仅用 12 秒和约 800 个推理 token 就识别出了技术上的不可能性。
文章警告,行业不应盲目增加推理预算、语料库规模或参数数量。DeepSeek V4 Pro 花了 3 分 26 秒在推理循环中浪费算力,最终生成结构完美但自信错误的答案,而规模只有其一半的模型却几乎瞬间识别出悖论。作者认为,现代 LLM 面临一个未解决的三难困境:原始能力、不确定性校准/幻觉率、计算效率。
前 OpenAI 员工 Thomas Dimson 和 Joey Flynn 创建了网站 In the Weights,旨在衡量 AI 模型在无需网络搜索的情况下对某人的“记忆”程度。该网站通过向 Grok、Gemini、GPT 等多个模型提问“Who is <name>?”,并聚类相似描述给出一个“strength score”。据 TechCrunch 报道,Dimson 表示他们离开 OpenAI 后想“重新激发创造力”,并认为“谷歌 vanity 搜索在 2026 年已不合时宜”。
例如,TechCrunch 作者得分为 641,位列前 6%;演员 Macaulay Culkin 以 988 分暂居榜首。结果还显示各模型回答及潜在幻觉。Dimson 称反响“疯狂”,计划进一步研究不同模型为何结果不同,以及哪些人“应该有维基百科却没有”。
看英文原文 →印度亿万富翁 Mukesh Ambani 旗下信实工业在年度股东大会上宣布推出 Jio Call Agent,这是一款可加入电话的 AI 助手,能转录、总结并执行订车、订餐等任务。该服务通过“Hey Jio”激活,计划今年晚些时候向 Jio 的 5 亿多用户推出。信实还发布了 AI 版 MyJio 应用和家庭显示屏 TeleFrame,后者利用 AI 主动推送天气、日程等信息。
Ambani 表示“印度不应只是 AI 的消费者,必须成为创造者和全球领导者”。信实已与 Google、Meta、Nvidia 合作,并计划投资 1100 亿美元建设 AI 基础设施。同时,Jio Platforms 董事会已批准 IPO 草案,拟发行至多 2.7 亿股新股。信实还推出了面向医疗、教育等领域的 AI 服务,支持 22 种印度语言。
看英文原文 →据知情人士透露,企业软件公司 Elastic 已同意以最高 8500 万美元收购 AI 初创公司 Deductive AI。Deductive 成立于 2023 年,去年 11 月以 3300 万美元估值完成 750 万美元种子轮融资,由 CRV 领投。该公司利用 AI 自动发现并修复软件 bug,属于 AI 站点可靠性工程(AI SRE)领域。据知情人士透露,该收购反映了科技巨头通过收购 AI 原生初创公司来整合智能技术的趋势。
Deductive 的联合创始人 Rakesh Kothari 和 Sameer Agarwal 分别来自 ThoughtSpot 和 Databricks。该公司年经常性收入约 100 万美元,但增长落后于竞争对手 Resolve AI(估值 15 亿美元)。Elastic 计划将 Deductive 的 AI 技术整合到其可观测性平台中,帮助客户自动监控性能并实时解决系统故障。
看英文原文 →《大西洋月刊》记者 Alex Reisner 发现了四个用于训练 AI 模型的音乐数据集,并将其制作成可搜索数据库供公众查询。其中两个数据集规模巨大,分别包含 1200 万和 900 万首曲目;另外两个较小,各含超过 10 万首歌曲。据 Reisner 称,这些数据集已被下载数千次,Google 和 Stability 已在研究论文中确认使用过它们。
部分来源如 Free Music Archive 数据集仅供个人免费流媒体播放,但重新分发需授权。该数据库的公开旨在提高 AI 训练数据使用的透明度。
看英文原文 →据 The Verge 报道,OpenAI 企业 AI 销售负责人 Barret Zoph 在重返公司仅五个月后再次离职。Zoph 于 1 月中旬回归 OpenAI,此前他曾担任由前 OpenAI CTO Mira Murati 创立的竞争对手 AI 公司 Thinking Machines Lab 的联合创始人兼 CTO。
Zoph 回归后,OpenAI 曾表示他将领导公司进军企业市场——这一角色至关重要,因为 OpenAI 近期已承诺停止追逐所谓的“支线任务”,专注于企业和编码等关键收入驱动力,以筹备其计划中的 IPO。OpenAI 向 The Verge 确认了 Zoph 将离职的消息。
看英文原文 →总部位于迈阿密的 AI 初创公司 Subquadratic 上个月走出隐身模式,宣称解决了困扰大语言模型近十年的数学瓶颈。该公司声称开发了一种名为 SubQ 的新型 LLM,比市场上任何其他模型更快、更便宜且能耗更低,且能同时处理多达 12 倍的文本量,适用于分析数百份文档或整个代码库等数据密集型任务。
Subquadratic 表示 SubQ 在编码等关键任务上基本能匹配 Google DeepMind、OpenAI 和 Anthropic 最佳模型的性能。最初该公司仅提供少量自测分数,引发怀疑。AI 工程师 Dan McAteer 在 X 上评论称:“SubQ 要么是 Transformer 以来最大的突破……要么就是 AI 版的 Theranos。”一个月后,Subquadratic 发布了更多信息,包括第三方公司 Appen 的独立测试结果。Appen 的生成式 AI 研究总监 Jeanine Sinanan-Singh 表示结果验证了其架构,可能成为“游戏规则改变者”。Subquadratic 联合创始人兼 CTO Alex Whedon 承认,如果当初同步发布第三方基准测试,本可避免许多质疑。
看英文原文 →据 Nature 报道,一项针对美国医疗工作者的调查显示,70% 的护士和 77% 的医生担心因过度依赖 AI 系统而失去技能。证据表明,AI 驱动的“去技能化”已在医学、计算机科学等领域开始发生。
一项针对波兰内镜医师的研究发现,使用 AI 辅助结肠镜分析工具后,当系统不可用时,医师的腺瘤检出率从使用前的 28.4% 降至 22.4%。该研究发表于《柳叶刀胃肠病学与肝病学》。加州大学旧金山分校的 Robert Wachter 医师表示,即使是高技能专业人员也可能因依赖 AI 而表现下降。此外,AI 公司 Anthropic 设计的一项随机对照试验中,52 名软件工程师被要求完成基本编码任务,其中一半被提示使用 AI 助手,以考察技能是否丧失。
看英文原文 →据 Ed Zitron 撰文指出,生成式 AI 正经历类似 Herbalife 的时刻,即通过多级营销模式向年轻人兜售虚假希望。文章提到,TikTok 上充斥着 Replit 等“vibe coding”初创公司的广告,这些公司本质上是 Anthropic、OpenAI 和 Google 模型的包装器。广告通常展示俊男靓女通过提示词轻松创建软件,暗示这能带来额外收入甚至致富。
文章将这种现象与历史上的多级营销(MLM)和加密货币热潮类比,指出其利用人们对经济困境的焦虑。作者认为,当前年轻人面临就业市场停滞,而 AI 被用作裁员的借口。像 Replit 和 Cursor 这样的公司通过网红营销,向渴望经济稳定的年轻人贩卖希望,但只有极少数人能真正成功。
看英文原文 →Cosine 发布了一款名为 Argusred 的 CLI 安全工具,包含两种模式:Security Scan 读取代码,Pen Test 在用户授权下尝试利用漏洞。该工具基于 Cosine 自训练的模型,而非现成的 API,因为现成模型会拒绝执行渗透测试所需的操作。
Argusred 通过 Homebrew 或 curl 免费安装,首次运行需注册 Cosine 账号,新用户获赠 200 万免费 Token。工具在本地运行,支持 macOS 和 Linux,Windows 支持即将推出。其安全机制通过 Go 语言编写的底层控制器拦截所有工具调用,在扫描模式下阻止写入和执行操作,在渗透测试模式下限制网络出口仅到授权目标。
看英文原文 →从 46 条资讯中筛选
今日全部信源这一期是从下面这些一手英文信源里,筛掉噪音后留下的。