Anthropic 发布 Claude Opus 4.8，强调诚实性提升

Anthropic 将 Claude Opus 升级至 4.8 版本，在多项基准测试上均有提升，且价格不变。新版本同时引入了用户可调节的“努力程度”控制、Claude Code 的“动态工作流”功能，以及 Opus 4.8 快速模式（速度提升 2.5 倍）价格降至前代的三分之一。

早期测试者反馈 Opus 4.8 在代理任务中更可靠、判断更敏锐，尤其诚实性显著改善——模型更倾向于标注不确定性，减少无依据的断言。评估显示，Opus 4.8 对代码缺陷的漏报率约为前代的四分之一。对齐评估表明，其亲社会特质达到新高，而错误对齐行为（如欺骗）发生率大幅低于 Opus 4.7，与最佳对齐模型 Claude Mythos Preview 相当。

看英文原文 →

Box 创始人 Aaron Levie 在 TechCrunch 的 Equity 播客中表示，那些认为 AI 可以取代你工作的人，恰恰是最不了解你工作内容的人，他将此称为“AI 精神病”。他举例称，ClickUp 近期因引入 AI 代理而裁减了 22% 的员工。

2026 年的科技行业裁员人数已几乎与 2025 年全年持平，同时 DuckDuckGo 的安装量因用户希望 Google 停止强制在搜索中插入 AI 而攀升。播客主持人与嘉宾讨论了 AI 狂热者与怀疑者同时正确时会发生什么，以及 Waymo 新 Robotaxi 上路等话题。

看英文原文 →

Qwen-VLA 是一个统一的具身基础模型，将 Qwen 的视觉-语言建模扩展到连续动作和轨迹生成，通过 DiT 动作解码器实现。它采用大规模联合预训练，涵盖机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据等多种来源，并引入“具身感知提示”以支持不同机器人平台。

实验表明，Qwen-VLA 在操作、导航和轨迹预测任务上均表现出一致的多任务性能和分布外泛化能力。具体成绩包括：LIBERO 上 97.9%，Simpler-WidowX 上 73.7%，RoboTwin-Easy/Hard 上 86.1%/87.2%，R2R 上 OSR 69.0%，RxR 上 SR 59.6%，真实世界 ALOHA 实验中平均 OOD 成功率 76.9%，以及 DOMINO 动态操作零样本成功率 26.6%。

看英文原文 →

从 10 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里，筛掉噪音后留下的。

Anthropic Arps18 Hugging Face Shawnsmucker TechCrunch The Verge

从 10 条资讯中筛选

明天这一封，也别错过。