Anthropic 为隐藏安全措施道歉，将让模型蒸馏限制透明化

Anthropic 为其新模型 Claude Fable 5 中隐藏的安全措施道歉。该措施会暗中降级被怀疑进行模型蒸馏的查询，影响研究者和竞争对手。公司表示将改为可见的降级处理：当检测到蒸馏尝试时，查询将回退到 Claude Opus 4.8，并明确告知用户。

此前 Anthropic 在 Fable 的系统卡中说明，会对蒸馏查询直接篡改回答且不通知用户。此举引发 AI 社区强烈反对。公司承认隐形安全措施虽能减少误报，但牺牲了透明度，并表示抱歉。

Google DeepMind 推出 Gemma 4 12B，一款面向笔记本电脑的多模态模型，采用无编码器架构，原生支持图像和音频输入。其性能接近更大的 26B MoE 模型，但内存占用不到一半，可在 16GB RAM 的消费级笔记本上本地运行。

Gemma 4 系列累计下载量已超 1.5 亿次。新模型旨在填补边缘友好型 E4B 与高级 26B MoE 之间的空白，为开发者提供移动级效率与高级推理的结合。

Google DeepMind 联合 Schmidt Sciences、ARIA 等机构，提供 1000 万美元资金，用于研究多 AI 代理系统交互的潜在风险。其 AGI 安全负责人 Rohin Shah 表示，代理可自主执行任务并相互下达指令，这带来了全新风险类别。

研究重点包括诈骗、提示注入攻击等网络威胁的升级版本。Shah 认为，距离代理大规模部署还有几个月，希望提前建立安全研究领域，避免数字公共空间陷入混乱。

今日全部信源

这一期是从下面这些一手英文信源里，筛掉噪音后留下的。

The Verge Ired TechCrunch Lwn Google DeepMind Support MIT Tech Review

明天这一封，也别错过。