研究人员提出 SpecEyes,一种智能体级别的推测加速框架,旨在减少多模态大语言模型(如 OpenAI o3 和 Gemini Agentic Vision)在迭代感知、推理和工具调用中的顺序开销。该框架利用一个轻量级、无需工具的小模型作为推测规划器,预测执行轨迹,从而提前终止昂贵的工具链,同时保持准确性。
SpecEyes 引入了一种基于答案可分性的认知门控机制,用于量化模型的自验证置信度,无需真实标签。此外,异构并行漏斗设计利用小模型的无状态并发性来掩盖大模型的有状态串行执行,最大化系统吞吐量。在 V* Bench、HR-Bench 和 POPE 上的实验表明,SpecEyes 实现了 1.1-3.35 倍的加速,精度保持或提升最高达 6.7%。
看英文原文 →