一项对 17,871 个思考块和 234,760 次工具调用的分析显示,Claude Code 在复杂工程任务中质量明显下降。自 2 月中旬起,思考深度下降约 67%,模型从“先研究后编辑”转变为“先编辑后研究”,每次编辑前的读取次数从 6.6 次降至 2.0 次。
分析指出,扩展思考令牌对于多步骤研究、遵循规范和谨慎修改代码至关重要。当思考深度降低时,模型更倾向于重写整个文件而非精确编辑,导致精度和上下文感知能力下降。该问题在 3 月 8 日被独立报告,恰逢经过编辑的思考块比例超过 50%。
看英文原文 →