Qwen-VLA 是一个统一的具身基础模型,将 Qwen 的视觉-语言建模扩展到连续动作和轨迹生成,通过 DiT 动作解码器实现。它采用大规模联合预训练,涵盖机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据等多种来源,并引入“具身感知提示”以支持不同机器人平台。
实验表明,Qwen-VLA 在操作、导航和轨迹预测任务上均表现出一致的多任务性能和分布外泛化能力。具体成绩包括:LIBERO 上 97.9%,Simpler-WidowX 上 73.7%,RoboTwin-Easy/Hard 上 86.1%/87.2%,R2R 上 OSR 69.0%,RxR 上 SR 59.6%,真实世界 ALOHA 实验中平均 OOD 成功率 76.9%,以及 DOMINO 动态操作零样本成功率 26.6%。
看英文原文 →