视觉-语言-动作模型（VLA）

视觉-语言-动作模型（Vision-Language-Action Model, VLA）是将大规模预训练的视觉-语言模型（VLM）扩展到机器人动作生成的新范式。VLA 模型能够接收图像观测和自然语言指令，直接输出机器人的控制动作，实现"看图说话"到"看图做事"的跨越。

具身智能视角：VLA 代表了具身智能从"专用小模型"走向"通用大模型"的趋势。传统方法为每个任务训练一个策略，而 VLA 试图用一个模型完成多种任务、泛化到新场景——这正是通用机器人智能的愿景。

为什么需要 VLA

传统的模仿学习方法（BC、ACT、Diffusion Policy 等）通常只能处理特定任务，缺乏跨任务和跨场景的泛化能力：

任务特定：每个任务需要单独采集数据、单独训练模型
语义理解弱：无法理解自然语言指令，不能灵活指定任务
泛化不足：对新物体、新场景的泛化能力有限

VLA 模型通过引入大规模预训练的视觉-语言模型，将丰富的视觉语义知识迁移到机器人控制中，从而获得更强的泛化能力。

VLA 的核心架构

VLA 模型通常由三个模块组成：

视觉编码器

将图像观测编码为视觉特征。常用的视觉编码器包括：

ViT（Vision Transformer）：将图像分割为 patch 序列，用 Transformer 编码
SigLIP：经过语言-图像对比学习预训练的视觉编码器，语义理解能力强
DINOv2：自监督预训练的视觉编码器，空间特征表示能力强

语言模型骨干

VLA 的核心是一个预训练的大语言模型（LLM），负责融合视觉和语言信息并生成动作。常用的骨干包括：

Llama 系列：开源、社区活跃，RT-2-X、OpenVLA 等采用
PaLM / Gemini：Google 的大模型，RT-2 采用
Qwen 系列：中文生态友好

动作解码

将语言模型的输出映射为机器人动作。主要有两种方式：

方式	思路	代表工作
动作 token 化	将连续动作离散化为 token，作为语言模型词表的扩展	RT-2、OpenVLA
动作头（Action Head）	在语言模型输出特征上接一个独立的动作预测网络	、RDT

代表性工作

RT-2（Robotics Transformer 2）

RT-2 由 Google DeepMind 提出，是最早的 VLA 模型之一。核心思想是将机器人动作表示为文本 token，直接复用 VLM 的生成能力：

架构：PaLM-E / PaLI-X 作为骨干
动作表示：将连续动作值离散化为 256 个 bin，每个 bin 对应一个特殊 token
训练：在互联网规模的视觉-语言数据和机器人数据上联合训练

RT-2 展示了 VLM 的语义知识可以迁移到机器人控制中。例如，训练数据中从未出现过"把垃圾扔进垃圾桶"这个任务，但 RT-2 可以通过语义理解来完成。

OpenVLA

OpenVLA 是首个开源的通用 VLA 模型：

架构：Llama 2 7B + SigLIP 视觉编码器
训练数据：Open X-Embodiment 数据集（970K 机器人轨迹）
动作表示：动作 token 化，每个自由度 256 个离散 bin

其中是视觉 token，是语言指令 token。

OpenVLA 的开源为 VLA 研究降低了门槛，但也暴露了动作 token 化方法在精细控制上的局限性。

（Physical Intelligence）

采用了不同于 RT-2 / OpenVLA 的架构设计：

架构：PaLI-Gemma 3B 作为视觉-语言骨干 + Flow Matching 动作头
动作生成：不使用动作 token 化，而是用 Flow Matching（连续归一化流）生成连续动作序列
动作分块：一次性预测未来多步动作

在灵巧操作任务（折叠衣物、整理桌面等）上展示了优异的性能，其 Flow Matching 动作头能更好地建模连续动作空间的多模态分布。

其他重要工作

模型	机构	骨干	动作方式	特点
RT-2-X	Google	PaLM-E	token 化	跨机器人平台泛化
Octo	UC Berkeley	Transformer	扩散头	轻量级、支持微调
RDT	THU	Diffusion Transformer	扩散头	多模态动作分布
GR-2	ByteDance	视频生成 + 动作头	动作头	视频预训练增强理解
CogACT	THU	CogVLM2	扩散头	认知增强的动作生成

动作表示：token 化 vs 连续生成

VLA 模型的一个核心设计选择是如何表示和生成动作：

动作 token 化

将每个动作维度的连续值离散化为个 bin（通常），然后作为特殊 token 加入语言模型的词表：

优点：直接复用语言模型的 next-token prediction 框架，实现简单。

缺点：离散化引入量化误差；各维度独立预测，忽略了动作维度间的相关性。

连续动作生成

使用扩散模型（Diffusion）或流匹配（Flow Matching）直接在连续空间中生成动作：

优点：无量化误差；能建模多模态分布；可生成动作序列（动作分块）。

缺点：需要额外的动作头网络；推理时需要多步去噪。

训练流程

VLA 的训练通常分为两个阶段：

阶段一：视觉-语言预训练

使用大规模互联网数据训练视觉-语言理解能力。这个阶段通常直接使用已有的预训练 VLM（如 PaLI-Gemma、Llama-based VLM）。

阶段二：机器人数据微调

在机器人操作数据上微调，学习从视觉-语言理解到动作生成的映射：

数据格式： — 图像观测、语言指令、目标动作
损失函数：取决于动作表示方式
- token 化：交叉熵损失（与语言建模一致）
- 连续生成：扩散损失或流匹配损失

常用数据集

数据集	规模	特点
Open X-Embodiment	970K 轨迹，22 个机器人平台	最大规模的开源机器人数据集
DROID	76K 轨迹	多场景、多机构采集
Bridge V2	60K 轨迹	桌面操作，社区广泛使用
RH20T	110K 轨迹	中国团队采集，场景丰富

VLA 的关键挑战

实时性

大语言模型的推理速度通常为 1-5 Hz，而机器人控制通常需要 10-50 Hz 的控制频率。解决方案包括：

动作分块：一次预测多步动作，降低模型调用频率
模型蒸馏：将大模型知识蒸馏到小模型
推理加速：量化、投机解码等技术

精细操作

当前 VLA 在精细操作（如插入、旋转等需要亚毫米精度的任务）上的表现仍有差距，主要原因是：

动作 token 化的量化误差
视觉编码器的空间分辨率不足
训练数据中精细操作样本不足

安全性

VLA 模型在开放环境中部署时需要考虑安全问题：

语言指令注入攻击（如恶意指令）
分布外场景下的不可预测行为
缺乏硬性约束保证（如关节限位、碰撞避免）

VLA 与其他范式的对比

维度	传统 RL（PPO/SAC）	模仿学习（BC/ACT）	VLA
语言理解	无	无 / 有限	强
泛化能力	弱（任务特定）	中等	强（跨任务、跨场景）
数据需求	仿真交互	专家示教	大规模互联网 + 机器人数据
推理速度	快（>100 Hz）	快（10-50 Hz）	慢（1-10 Hz）
精细控制	强	强	有待提升
适用场景	仿真训练、单一任务	特定技能学习	通用任务执行

小结

VLA 是具身智能领域的前沿方向，代表了大模型与机器人控制融合的趋势。尽管仍面临实时性、精细控制等挑战，但 VLA 展示了通往通用机器人智能的可能路径。

学习建议：

先掌握模仿学习（BC、Diffusion Policy）的基础，再理解 VLA 如何在此基础上引入语言理解
关注 OpenVLA 等开源项目，动手实践微调流程
理解不同动作表示方式（token 化 vs 扩散/流匹配）的优劣，这是当前研究的核心分歧

为什么需要 VLA​

VLA 的核心架构​

视觉编码器​

语言模型骨干​

动作解码​

代表性工作​

RT-2（Robotics Transformer 2）​

OpenVLA​

（Physical Intelligence）​

其他重要工作​

动作表示：token 化 vs 连续生成​

动作 token 化​

连续动作生成​

训练流程​

阶段一：视觉-语言预训练​

阶段二：机器人数据微调​

常用数据集​

VLA 的关键挑战​

实时性​

精细操作​

安全性​

VLA 与其他范式的对比​

小结​