跳到主要内容

具身智能入门指南:从零基础到找到第一份相关工作

这篇文章的目标只有一个:帮你搞清楚具身智能怎么学、学什么、做什么项目,最终找到相关工作。

内容分为几个部分:行业方向、岗位需求、学习路线、项目实践。建议按顺序读完,先理解行业全貌,再决定自己的方向。


一、具身智能是什么

具身智能就是让机器人真正"理解世界并动起来"。

这里的"机器人",可以是机械臂、人形机器人、轮式机器人、机器狗;
这里的"智能",不是单纯做个分类模型,而是要让它同时具备:

  • 看懂环境的能力
  • 听懂或理解语言指令的能力
  • 做决策和规划的能力
  • 最终完成现实世界动作任务的能力

具身智能不是单点技术,而是一条完整链路:

感知 → 理解 → 决策 → 动作生成 → 控制执行

当下行业里最受关注的核心技术之一,是 VLA(Vision-Language-Action,视觉-语言-动作)。可以把它理解成机器人的"大脑系统":输入图像、语言、状态信息,输出机器人动作。


二、行业主要方向

具身智能不只有"大模型算法"这一条路,从行业需求来看,大致分成以下几个方向。

1. 通用具身智能大模型

主要做机器人"脑子"的部分,核心工作包括多模态指令理解、环境感知与状态建模、动作生成、VLA / VLM 训练微调部署、多模态对齐。门槛最高,偏算法研究和模型研发。

2. 机器人运动控制与强化学习

解决"怎么动、怎么动准"的问题。涉及机器人控制、轨迹规划、强化学习、策略优化、sim2real,是具身智能落地的底层能力。

3. 机器人仿真与数字孪生

真实机器人训练成本高、试错代价大,仿真环境几乎是必选项。常见工具有 Isaac Sim、MuJoCo、Gazebo,会搭仿真环境、做 sim2real 在很多岗位里是硬需求。

4. 具身智能数据工程

VLA 模型的能力上限很大程度上受数据质量影响。企业需要大量人做开源数据集处理、数据清洗与格式转换、数据平台搭建、数据采集与规范化、可视化与数据质量检查。门槛相对低,缺口大。

5. 多模态感知与硬件适配

解决"机器人怎么感知环境、怎么和硬件打通"的问题,包括计算机视觉、传感器融合、深度相机 / 雷达 / 力觉等感知系统、驱动开发、嵌入式开发、实机调试。有 CV、自动化、电子、嵌入式背景的人更适合。


三、岗位需求

具身智能岗位大体分成四类,学习方向应该围绕目标岗位来定。

1. 算法研发岗

常见岗位:VLA 算法工程师、具身大模型研发工程师、强化学习算法工程师

核心工作:VLA / VLM 模型预训练与微调、强化学习算法研发、多模态建模、机器人动作生成、模型部署与推理优化

技能要求:Python、PyTorch、深度学习、强化学习、VLA / VLM 基础、论文阅读与复现能力

适合人群:硕博背景、AI / 算法基础扎实的本科生、有模型复现训练部署经验的人

2. 工程落地岗

常见岗位:机器人算法工程师、ROS 开发工程师、仿真开发工程师、部署工程师

核心工作:ROS / ROS2 开发、机器人控制算法落地、仿真环境搭建、模型部署到真机、sim2real 工程闭环

技能要求:Python / C++、ROS / ROS2、Isaac Sim / MuJoCo、机器人学基础、实际项目调试能力

适合人群:有编程基础、想做工程实现而不是纯算法研究的人

3. 数据与科研岗

常见岗位:具身数据工程师、科研助理、论文复现工程师

核心工作:开源数据集处理、数据清洗转换规范化、前沿论文复现、技术文档撰写、实验设计

技能要求:Python、数据处理、深度学习基础、英文文献阅读

适合人群:基础弱但执行力强、想快速进入行业的人

4. 硬件与感知岗

常见岗位:机器人感知工程师、嵌入式开发工程师、硬件工程师

核心工作:多模态感知算法开发、传感器融合、驱动开发、实机联调

技能要求:C / C++、计算机视觉、嵌入式开发、机器人学基础

适合人群:自动化、电子、嵌入式、控制背景


四、学习路线

学习路线分三个阶段,核心原则是:先打基础,再定向进阶,最后用项目验证。

第一阶段:基础(1-2 个月)

编程基础:Python 基础语法、面向对象编程、Numpy / Pandas / Matplotlib、基础数据处理能力。做工程 / 硬件 / 底层开发还需要补 C++ 基础。

AI 基础理论:神经网络基础、CNN、Transformer、ViT、机器学习基本流程、模型训练验证测试的完整闭环。

机器人基础认知:坐标变换、正逆运动学、机器人学基本概念、ROS / ROS2 基础认知、常见术语(VLA、sim2real、动作序列、感知融合等)。

工程工具:PyTorch、Git、Docker。

第二阶段:定向进阶(2-3 个月)

根据目标岗位选择对应路线,不需要全学。

VLA / 算法研发方向:多模态大模型基础、VLM 与 VLA 的差异、扩散模型 / 流匹配基础、强化学习核心算法(PPO、DQN)、经典 VLA 论文(ACT、Diffusion Policy、OpenVLA、RDT、pi0 / pi0.5)。

工程落地方向:ROS / ROS2 进阶开发、topic / service / action 通信机制、Isaac Sim / MuJoCo 使用、机器人控制基础、sim2real 核心原理。

数据与科研方向:具身智能开源数据集使用(OXE、DROID、GO-1、Libero 等)、数据清洗与规范化处理、Python 数据处理进阶、英文科技论文阅读。核心是跑通完整数据流程:读懂数据 → 清洗 → 转换 → 可视化 → 生成适配训练的数据格式

硬件与感知方向:计算机视觉基础、传感器融合原理、嵌入式开发、硬件驱动开发、实机调试流程。

第三阶段:项目实践(持续进行)

理论学完之后,最重要的是做项目。企业看重的是你解决过什么问题、能不能把系统跑起来,而不是你读了多少论文。


五、推荐项目

以下六个项目覆盖了主要岗位方向,按照自己的目标选择对应的项目来做。

项目一:ACT 经典复现

适合方向:算法 / 工程 / 数据

ACT 是具身智能领域最经典的入门项目,适配范围广,不管走哪个方向都值得做一遍。

完成目标:

  • 理解 Transformer 在机器人动作生成中的具体应用
  • 跑通完整的训练 → 测试 → 推理流程
  • 搭建仿真环境并在里面验证模型

项目二:ROS2 机械臂控制仿真

适合方向:工程落地

贴近 ROS 开发岗、工程落地岗、仿真开发岗的实际工作内容。

完成目标:

  • 掌握 ROS2 的 topic / service / action 通信机制
  • 实现机械臂正逆运动学控制
  • 完成一个简单抓取任务的完整闭环
  • 接入 Gazebo 或 Isaac Sim

项目三:开源具身数据集处理(OXE / Libero)

适合方向:零基础 / 数据工程

门槛低、周期短、容易出结果,是零基础同学最快能做出完整项目的方式。

完成目标:

  • 读懂具身数据集的结构和格式
  • 完成数据清洗、格式转换、规范化
  • 做可视化检查,能发现数据质量问题
  • 输出一个可以直接用于训练的小型数据集

项目四:Diffusion Policy 复现与微调

适合方向:算法研发(有一定基础)

有一定基础后的进阶项目,对 VLA 算法岗、强化学习算法岗的简历有帮助。

完成目标:

  • 理解扩散模型在机器人控制中的建模方式
  • 掌握复杂动作序列的生成逻辑
  • 有训练调参和性能优化的实际经验

项目五:OpenVLA 微调与部署

适合方向:算法 / 工程

OpenVLA 是目前有代表性的开源通用 VLA 模型,这个项目接近一线企业真实工作流。

完成目标:

  • 走通完整的 VLA 工作流:数据准备 → 微调 → 推理测试 → 部署
  • 理解通用 VLA 模型的结构和局限
  • 有仿真到真机部署的实际经验

项目六:Isaac Sim sim2real

适合方向:工程 / 控制

仿真平台能力在很多企业 JD 里已经是常见要求,这个项目对仿真开发、机器人控制、部署相关岗位有竞争力。

完成目标:

  • 能独立搭建仿真场景并训练策略
  • 理解 sim2real gap 的来源和常见处理方式
  • 有完整的仿真 → 真机迁移经验

六、推荐入门路径

根据自身背景选择对应路径。

零基础 / 跨行:Python → 数据处理 → ROS / 仿真 → 做项目(项目三或项目二)→ 投递工程 / 数据岗 → 入行后再向核心研发转

AI 基础较强:深度学习 → PyTorch → VLA / 强化学习基础 → 复现 ACT / Diffusion Policy → 做 OpenVLA 项目 → 冲算法岗

工科硬件背景:C/C++ → 机器人学 → ROS2 → 感知 / 驱动 / 嵌入式 → 仿真与实机联调 → 投硬件与感知岗


七、常见误区

只堆理论,不做项目。 具身智能是强工程落地方向,没有项目经验,求职竞争力会大打折扣。

不分方向,盲目全学。 什么都学通常等于什么都学不深,先把一个方向做出成果更重要。

等"完全学会"再投递。 具身智能发展很快,更现实的节奏是:学完基础 → 做出 1-2 个项目 → 开始投递 → 在面试和项目迭代中继续成长。

忽视仿真平台。 真实机器人贵、训练慢、调试难,仿真平台是积累项目经验的最佳场景,Isaac Sim、MuJoCo、Gazebo 越早接触越好。