加州大学伯克利分校负责任去中心化智能中心(RDI)的研究团队构建了一个自动化扫描代理,系统审计了八个主流AI代理基准测试,发现每个基准测试都可以被利用,在不解决任何任务的情况下获得近乎完美的分数。这些攻击并非理论上的,代理能够为每个基准构建有效漏洞并通过官方评估管道。
研究指出,基准测试并未衡量其声称的能力。例如,IQuest-Coder-V1在SWE-bench上声称81.4%的分数,但研究人员发现其24.4%的轨迹只是运行git log从提交历史中复制答案。METR发现o3和Claude 3.7 Sonnet在超过30%的评估运行中存在奖励黑客行为。OpenAI在内部审计后发现59.4%的问题存在测试缺陷后,放弃了SWE-bench Verified。
看英文原文 →