具身智能入门指南：从零基础到找到第一份相关工作

这篇文章的目标只有一个：帮你搞清楚具身智能怎么学、学什么、做什么项目，最终找到相关工作。

内容分为几个部分：行业方向、岗位需求、学习路线、项目实践。建议按顺序读完，先理解行业全貌，再决定自己的方向。

一、具身智能是什么

具身智能就是让机器人真正"理解世界并动起来"。

这里的"机器人"，可以是机械臂、人形机器人、轮式机器人、机器狗；
这里的"智能"，不是单纯做个分类模型，而是要让它同时具备：

看懂环境的能力
听懂或理解语言指令的能力
做决策和规划的能力
最终完成现实世界动作任务的能力

具身智能不是单点技术，而是一条完整链路：

感知 → 理解 → 决策 → 动作生成 → 控制执行

当下行业里最受关注的核心技术之一，是 VLA（Vision-Language-Action，视觉-语言-动作）。可以把它理解成机器人的"大脑系统"：输入图像、语言、状态信息，输出机器人动作。

二、行业主要方向

具身智能不只有"大模型算法"这一条路，从行业需求来看，大致分成以下几个方向。

1. 通用具身智能大模型

主要做机器人"脑子"的部分，核心工作包括多模态指令理解、环境感知与状态建模、动作生成、VLA / VLM 训练微调部署、多模态对齐。门槛最高，偏算法研究和模型研发。

2. 机器人运动控制与强化学习

解决"怎么动、怎么动准"的问题。涉及机器人控制、轨迹规划、强化学习、策略优化、sim2real，是具身智能落地的底层能力。

3. 机器人仿真与数字孪生

真实机器人训练成本高、试错代价大，仿真环境几乎是必选项。常见工具有 Isaac Sim、MuJoCo、Gazebo，会搭仿真环境、做 sim2real 在很多岗位里是硬需求。

4. 具身智能数据工程

VLA 模型的能力上限很大程度上受数据质量影响。企业需要大量人做开源数据集处理、数据清洗与格式转换、数据平台搭建、数据采集与规范化、可视化与数据质量检查。门槛相对低，缺口大。

5. 多模态感知与硬件适配

解决"机器人怎么感知环境、怎么和硬件打通"的问题，包括计算机视觉、传感器融合、深度相机 / 雷达 / 力觉等感知系统、驱动开发、嵌入式开发、实机调试。有 CV、自动化、电子、嵌入式背景的人更适合。

三、岗位需求

具身智能岗位大体分成四类，学习方向应该围绕目标岗位来定。

1. 算法研发岗

常见岗位：VLA 算法工程师、具身大模型研发工程师、强化学习算法工程师

核心工作：VLA / VLM 模型预训练与微调、强化学习算法研发、多模态建模、机器人动作生成、模型部署与推理优化

技能要求：Python、PyTorch、深度学习、强化学习、VLA / VLM 基础、论文阅读与复现能力

适合人群：硕博背景、AI / 算法基础扎实的本科生、有模型复现训练部署经验的人

2. 工程落地岗

常见岗位：机器人算法工程师、ROS 开发工程师、仿真开发工程师、部署工程师

核心工作：ROS / ROS2 开发、机器人控制算法落地、仿真环境搭建、模型部署到真机、sim2real 工程闭环

技能要求：Python / C++、ROS / ROS2、Isaac Sim / MuJoCo、机器人学基础、实际项目调试能力

适合人群：有编程基础、想做工程实现而不是纯算法研究的人

3. 数据与科研岗

常见岗位：具身数据工程师、科研助理、论文复现工程师

核心工作：开源数据集处理、数据清洗转换规范化、前沿论文复现、技术文档撰写、实验设计

技能要求：Python、数据处理、深度学习基础、英文文献阅读

适合人群：基础弱但执行力强、想快速进入行业的人

4. 硬件与感知岗

常见岗位：机器人感知工程师、嵌入式开发工程师、硬件工程师

核心工作：多模态感知算法开发、传感器融合、驱动开发、实机联调

技能要求：C / C++、计算机视觉、嵌入式开发、机器人学基础

适合人群：自动化、电子、嵌入式、控制背景

四、学习路线

学习路线分三个阶段，核心原则是：先打基础，再定向进阶，最后用项目验证。

第一阶段：基础（1-2 个月）

编程基础：Python 基础语法、面向对象编程、Numpy / Pandas / Matplotlib、基础数据处理能力。做工程 / 硬件 / 底层开发还需要补 C++ 基础。

AI 基础理论：神经网络基础、CNN、Transformer、ViT、机器学习基本流程、模型训练验证测试的完整闭环。

机器人基础认知：坐标变换、正逆运动学、机器人学基本概念、ROS / ROS2 基础认知、常见术语（VLA、sim2real、动作序列、感知融合等）。

工程工具：PyTorch、Git、Docker。

第二阶段：定向进阶（2-3 个月）

根据目标岗位选择对应路线，不需要全学。

VLA / 算法研发方向：多模态大模型基础、VLM 与 VLA 的差异、扩散模型 / 流匹配基础、强化学习核心算法（PPO、DQN）、经典 VLA 论文（ACT、Diffusion Policy、OpenVLA、RDT、pi0 / pi0.5）。

工程落地方向：ROS / ROS2 进阶开发、topic / service / action 通信机制、Isaac Sim / MuJoCo 使用、机器人控制基础、sim2real 核心原理。

数据与科研方向：具身智能开源数据集使用（OXE、DROID、GO-1、Libero 等）、数据清洗与规范化处理、Python 数据处理进阶、英文科技论文阅读。核心是跑通完整数据流程：读懂数据 → 清洗 → 转换 → 可视化 → 生成适配训练的数据格式。

硬件与感知方向：计算机视觉基础、传感器融合原理、嵌入式开发、硬件驱动开发、实机调试流程。

第三阶段：项目实践（持续进行）

理论学完之后，最重要的是做项目。企业看重的是你解决过什么问题、能不能把系统跑起来，而不是你读了多少论文。

五、推荐项目

以下六个项目覆盖了主要岗位方向，按照自己的目标选择对应的项目来做。

项目一：ACT 经典复现

适合方向：算法 / 工程 / 数据

ACT 是具身智能领域最经典的入门项目，适配范围广，不管走哪个方向都值得做一遍。

完成目标：

理解 Transformer 在机器人动作生成中的具体应用
跑通完整的训练 → 测试 → 推理流程
搭建仿真环境并在里面验证模型

项目二：ROS2 机械臂控制仿真

适合方向：工程落地

贴近 ROS 开发岗、工程落地岗、仿真开发岗的实际工作内容。

完成目标：

掌握 ROS2 的 topic / service / action 通信机制
实现机械臂正逆运动学控制
完成一个简单抓取任务的完整闭环
接入 Gazebo 或 Isaac Sim

项目三：开源具身数据集处理（OXE / Libero）

适合方向：零基础 / 数据工程

门槛低、周期短、容易出结果，是零基础同学最快能做出完整项目的方式。

完成目标：

读懂具身数据集的结构和格式
完成数据清洗、格式转换、规范化
做可视化检查，能发现数据质量问题
输出一个可以直接用于训练的小型数据集

项目四：Diffusion Policy 复现与微调

适合方向：算法研发（有一定基础）

有一定基础后的进阶项目，对 VLA 算法岗、强化学习算法岗的简历有帮助。

完成目标：

理解扩散模型在机器人控制中的建模方式
掌握复杂动作序列的生成逻辑
有训练调参和性能优化的实际经验

项目五：OpenVLA 微调与部署

适合方向：算法 / 工程

OpenVLA 是目前有代表性的开源通用 VLA 模型，这个项目接近一线企业真实工作流。

完成目标：

走通完整的 VLA 工作流：数据准备 → 微调 → 推理测试 → 部署
理解通用 VLA 模型的结构和局限
有仿真到真机部署的实际经验

项目六：Isaac Sim sim2real

适合方向：工程 / 控制

仿真平台能力在很多企业 JD 里已经是常见要求，这个项目对仿真开发、机器人控制、部署相关岗位有竞争力。

完成目标：

能独立搭建仿真场景并训练策略
理解 sim2real gap 的来源和常见处理方式
有完整的仿真 → 真机迁移经验

六、推荐入门路径

根据自身背景选择对应路径。

零基础 / 跨行：Python → 数据处理 → ROS / 仿真 → 做项目（项目三或项目二）→ 投递工程 / 数据岗 → 入行后再向核心研发转

AI 基础较强：深度学习 → PyTorch → VLA / 强化学习基础 → 复现 ACT / Diffusion Policy → 做 OpenVLA 项目 → 冲算法岗

工科硬件背景：C/C++ → 机器人学 → ROS2 → 感知 / 驱动 / 嵌入式 → 仿真与实机联调 → 投硬件与感知岗

七、常见误区

只堆理论，不做项目。 具身智能是强工程落地方向，没有项目经验，求职竞争力会大打折扣。

不分方向，盲目全学。 什么都学通常等于什么都学不深，先把一个方向做出成果更重要。

等"完全学会"再投递。 具身智能发展很快，更现实的节奏是：学完基础 → 做出 1-2 个项目 → 开始投递 → 在面试和项目迭代中继续成长。

忽视仿真平台。 真实机器人贵、训练慢、调试难，仿真平台是积累项目经验的最佳场景，Isaac Sim、MuJoCo、Gazebo 越早接触越好。

一、具身智能是什么​

二、行业主要方向​

1. 通用具身智能大模型​

2. 机器人运动控制与强化学习​

3. 机器人仿真与数字孪生​

4. 具身智能数据工程​

5. 多模态感知与硬件适配​

三、岗位需求​

1. 算法研发岗​

2. 工程落地岗​

3. 数据与科研岗​

4. 硬件与感知岗​

四、学习路线​

第一阶段：基础（1-2 个月）​

第二阶段：定向进阶（2-3 个月）​

第三阶段：项目实践（持续进行）​

五、推荐项目​

项目一：ACT 经典复现​

项目二：ROS2 机械臂控制仿真​

项目三：开源具身数据集处理（OXE / Libero）​

项目四：Diffusion Policy 复现与微调​

项目五：OpenVLA 微调与部署​

项目六：Isaac Sim sim2real​

六、推荐入门路径​

七、常见误区​

一、具身智能是什么

二、行业主要方向

1. 通用具身智能大模型

2. 机器人运动控制与强化学习

3. 机器人仿真与数字孪生

4. 具身智能数据工程

5. 多模态感知与硬件适配

三、岗位需求

1. 算法研发岗

2. 工程落地岗

3. 数据与科研岗

4. 硬件与感知岗

四、学习路线

第一阶段：基础（1-2 个月）

第二阶段：定向进阶（2-3 个月）

第三阶段：项目实践（持续进行）

五、推荐项目

项目一：ACT 经典复现

项目二：ROS2 机械臂控制仿真

项目三：开源具身数据集处理（OXE / Libero）

项目四：Diffusion Policy 复现与微调

项目五：OpenVLA 微调与部署

项目六：Isaac Sim sim2real

六、推荐入门路径

七、常见误区