深度研究智能体错误定位新框架：DRIFT 将错误定位准确率提升 30 个百分点

深度研究智能体通过搜索、工具调用、证据检查和答案合成等长轨迹完成任务。传统基于最终答案的评估只能判断智能体是否成功，无法揭示轨迹中哪些部分导致了答案不可靠。为此，研究者提出了跨度级错误定位方法。

他们从两个智能体框架、三个骨干模型和三个基准中收集了 2790 条真实轨迹，将原始日志转换为语义跨度，并通过 LLM 辅助的专家审查标注有害错误跨度，构建了包含 1000 个实例的基准 TELBench。进一步提出的 DRIFT 框架追踪智能体的声明，检查其在轨迹证据中的支持情况，标记出无支持或冲突声明影响答案路径的跨度。实验表明，DRIFT 将跨度级错误定位和首次错误准确率提升了最多 30 个百分点。

看英文原文 →

基于规则的强化学习使用 LLM 作为裁判根据规则对模型输出评分作为奖励。然而，策略模型可能利用裁判的潜在偏见，导致奖励黑客行为，产生无效或不安全的训练结果。在真实场景中，这些黑客行为往往很微妙，且与多种裁判偏见纠缠，难以分析、检测和缓解。

CHERRL 通过向 LLM 裁判注入已知偏见，实现了奖励黑客的稳定复现、奖励偏差的显式观察以及黑客攻击起始步骤的精确识别。研究者还从可发现性和可利用性角度分析了不同裁判偏见，并探索了基于智能体的系统（RHDA）来自动检测训练日志中的奖励黑客起始点。代码和环境已公开。

看英文原文 →

SpaceX 在 IPO 前夕与 Google 签署了一项算力租赁协议。根据周五的监管文件，Google 将从 2026 年 10 月至 2029 年 6 月每月支付 9.2 亿美元，租用约 11 万块 NVIDIA GPU、CPU、内存及其他相关组件。该协议与 SpaceX 此前与 Anthropic 达成的每月 12.5 亿美元协议类似，但规模约为后者的一半。

Google 表示，这笔交易是为了应对其 AI 产品 Gemini Enterprise 的意外高需求，作为桥接容量。Alphabet 今年已承诺超过 1800 亿美元的资本支出，并预计 2027 年将“显著增加”。协议包含取消条款，双方可在 2026 年 12 月 31 日后提前 90 天通知终止。SpaceX 计划一周后在纳斯达克上市，估值约 1.75 万亿美元。

看英文原文 →

从 10 条资讯中筛选

今日全部信源

这一期是从下面这些一手英文信源里，筛掉噪音后留下的。

Alexispurslane Github Hugging Face TechCrunch The Verge Anthropic

从 10 条资讯中筛选

明天这一封，也别错过。