跳到主要内容

视觉-语言-动作模型(VLA)

视觉-语言-动作模型(Vision-Language-Action Model, VLA)是将大规模预训练的视觉-语言模型(VLM)扩展到机器人动作生成的新范式。VLA 模型能够接收图像观测和自然语言指令,直接输出机器人的控制动作,实现"看图说话"到"看图做事"的跨越。

具身智能视角:VLA 代表了具身智能从"专用小模型"走向"通用大模型"的趋势。传统方法为每个任务训练一个策略,而 VLA 试图用一个模型完成多种任务、泛化到新场景——这正是通用机器人智能的愿景。

为什么需要 VLA

传统的模仿学习方法(BC、ACT、Diffusion Policy 等)通常只能处理特定任务,缺乏跨任务和跨场景的泛化能力:

  • 任务特定:每个任务需要单独采集数据、单独训练模型
  • 语义理解弱:无法理解自然语言指令,不能灵活指定任务
  • 泛化不足:对新物体、新场景的泛化能力有限

VLA 模型通过引入大规模预训练的视觉-语言模型,将丰富的视觉语义知识迁移到机器人控制中,从而获得更强的泛化能力。

VLA 的核心架构

VLA 模型通常由三个模块组成:

视觉编码器

将图像观测编码为视觉特征。常用的视觉编码器包括:

  • ViT(Vision Transformer):将图像分割为 patch 序列,用 Transformer 编码
  • SigLIP:经过语言-图像对比学习预训练的视觉编码器,语义理解能力强
  • DINOv2:自监督预训练的视觉编码器,空间特征表示能力强

语言模型骨干

VLA 的核心是一个预训练的大语言模型(LLM),负责融合视觉和语言信息并生成动作。常用的骨干包括:

  • Llama 系列:开源、社区活跃,RT-2-X、OpenVLA 等采用
  • PaLM / Gemini:Google 的大模型,RT-2 采用
  • Qwen 系列:中文生态友好

动作解码

将语言模型的输出映射为机器人动作。主要有两种方式:

方式思路代表工作
动作 token 化将连续动作离散化为 token,作为语言模型词表的扩展RT-2、OpenVLA
动作头(Action Head)在语言模型输出特征上接一个独立的动作预测网络、RDT

代表性工作

RT-2(Robotics Transformer 2)

RT-2 由 Google DeepMind 提出,是最早的 VLA 模型之一。核心思想是将机器人动作表示为文本 token,直接复用 VLM 的生成能力:

  • 架构:PaLM-E / PaLI-X 作为骨干
  • 动作表示:将连续动作值离散化为 256 个 bin,每个 bin 对应一个特殊 token
  • 训练:在互联网规模的视觉-语言数据和机器人数据上联合训练

RT-2 展示了 VLM 的语义知识可以迁移到机器人控制中。例如,训练数据中从未出现过"把垃圾扔进垃圾桶"这个任务,但 RT-2 可以通过语义理解来完成。

OpenVLA

OpenVLA 是首个开源的通用 VLA 模型:

  • 架构:Llama 2 7B + SigLIP 视觉编码器
  • 训练数据:Open X-Embodiment 数据集(970K 机器人轨迹)
  • 动作表示:动作 token 化,每个自由度 256 个离散 bin

其中 是视觉 token, 是语言指令 token。

OpenVLA 的开源为 VLA 研究降低了门槛,但也暴露了动作 token 化方法在精细控制上的局限性。

(Physical Intelligence)

采用了不同于 RT-2 / OpenVLA 的架构设计:

  • 架构:PaLI-Gemma 3B 作为视觉-语言骨干 + Flow Matching 动作头
  • 动作生成:不使用动作 token 化,而是用 Flow Matching(连续归一化流)生成连续动作序列
  • 动作分块:一次性预测未来多步动作

在灵巧操作任务(折叠衣物、整理桌面等)上展示了优异的性能,其 Flow Matching 动作头能更好地建模连续动作空间的多模态分布。

其他重要工作

模型机构骨干动作方式特点
RT-2-XGooglePaLM-Etoken 化跨机器人平台泛化
OctoUC BerkeleyTransformer扩散头轻量级、支持微调
RDTTHUDiffusion Transformer扩散头多模态动作分布
GR-2ByteDance视频生成 + 动作头动作头视频预训练增强理解
CogACTTHUCogVLM2扩散头认知增强的动作生成

动作表示:token 化 vs 连续生成

VLA 模型的一个核心设计选择是如何表示和生成动作:

动作 token 化

将每个动作维度的连续值离散化为 个 bin(通常 ),然后作为特殊 token 加入语言模型的词表:

优点:直接复用语言模型的 next-token prediction 框架,实现简单。

缺点:离散化引入量化误差;各维度独立预测,忽略了动作维度间的相关性。

连续动作生成

使用扩散模型(Diffusion)或流匹配(Flow Matching)直接在连续空间中生成动作:

优点:无量化误差;能建模多模态分布;可生成动作序列(动作分块)。

缺点:需要额外的动作头网络;推理时需要多步去噪。

训练流程

VLA 的训练通常分为两个阶段:

阶段一:视觉-语言预训练

使用大规模互联网数据训练视觉-语言理解能力。这个阶段通常直接使用已有的预训练 VLM(如 PaLI-Gemma、Llama-based VLM)。

阶段二:机器人数据微调

在机器人操作数据上微调,学习从视觉-语言理解到动作生成的映射:

  • 数据格式 — 图像观测、语言指令、目标动作
  • 损失函数:取决于动作表示方式
    • token 化:交叉熵损失(与语言建模一致)
    • 连续生成:扩散损失或流匹配损失

常用数据集

数据集规模特点
Open X-Embodiment970K 轨迹,22 个机器人平台最大规模的开源机器人数据集
DROID76K 轨迹多场景、多机构采集
Bridge V260K 轨迹桌面操作,社区广泛使用
RH20T110K 轨迹中国团队采集,场景丰富

VLA 的关键挑战

实时性

大语言模型的推理速度通常为 1-5 Hz,而机器人控制通常需要 10-50 Hz 的控制频率。解决方案包括:

  • 动作分块:一次预测多步动作,降低模型调用频率
  • 模型蒸馏:将大模型知识蒸馏到小模型
  • 推理加速:量化、投机解码等技术

精细操作

当前 VLA 在精细操作(如插入、旋转等需要亚毫米精度的任务)上的表现仍有差距,主要原因是:

  • 动作 token 化的量化误差
  • 视觉编码器的空间分辨率不足
  • 训练数据中精细操作样本不足

安全性

VLA 模型在开放环境中部署时需要考虑安全问题:

  • 语言指令注入攻击(如恶意指令)
  • 分布外场景下的不可预测行为
  • 缺乏硬性约束保证(如关节限位、碰撞避免)

VLA 与其他范式的对比

维度传统 RL(PPO/SAC)模仿学习(BC/ACT)VLA
语言理解无 / 有限
泛化能力弱(任务特定)中等强(跨任务、跨场景)
数据需求仿真交互专家示教大规模互联网 + 机器人数据
推理速度快(>100 Hz)快(10-50 Hz)慢(1-10 Hz)
精细控制有待提升
适用场景仿真训练、单一任务特定技能学习通用任务执行

小结

VLA 是具身智能领域的前沿方向,代表了大模型与机器人控制融合的趋势。尽管仍面临实时性、精细控制等挑战,但 VLA 展示了通往通用机器人智能的可能路径。

学习建议:

  • 先掌握模仿学习(BC、Diffusion Policy)的基础,再理解 VLA 如何在此基础上引入语言理解
  • 关注 OpenVLA 等开源项目,动手实践微调流程
  • 理解不同动作表示方式(token 化 vs 扩散/流匹配)的优劣,这是当前研究的核心分歧