跳到主要内容

1. 绪论

强化学习(Reinforcement Learning, RL)是具身智能(Embodied Intelligence)的核心技术之一。与传统的监督学习不同,强化学习通过智能体与环境的交互来学习最优策略,天然适配机器人控制、运动规划等需要持续决策的场景。

1.1 为什么具身智能需要强化学习

具身智能要求智能体在物理世界(或其仿真环境)中感知、决策并执行动作。这与强化学习的核心范式高度吻合:

  • 连续控制:机器人的关节力矩、末端速度等都是连续动作空间,正是策略梯度类算法的用武之地
  • 序列决策:行走、抓取等任务需要在多个时步上持续做出决策,MDP 建模是标准方法
  • 仿真到实物(Sim-to-Real):在仿真环境(MuJoCo、Isaac Gym)中训练 RL 策略,再迁移到真实机器人,是当前主流范式
  • 稀疏奖励:真实任务的奖励信号通常稀疏且延迟,RL 擅长处理这类信用分配问题

1.2 本教程涵盖的算法

本教程从具身智能的实际需求出发,精选了最常用的 RL 算法:

章节算法具身智能应用
2. 马尔可夫决策过程MDP 基础所有 RL 算法的理论基石
3. 动态规划策略迭代、价值迭代理解值函数更新和贝尔曼方程的理论起点
4. 蒙特卡洛方法First-Visit MC、MC Control从完整轨迹回报中估计价值,建立无模型学习直觉
5. 时序差分方法TD(0)、SARSA、Q-Learning深度强化学习中 Critic 和价值更新的核心机制
6. DQN 算法DQN、经验回放、目标网络深度价值学习起点,为连续控制算法打基础
7. 策略梯度方法REINFORCE策略优化的基础方法
8. Actor-Critic 算法A2C / A3C / GAEPPO、SAC 等算法的基础框架
9. DDPG 与 TD3 算法DDPG、TD3机械臂连续控制的经典方法
10. PPO 算法PPO-Clip具身智能最主流算法(Isaac Gym 默认)
11. SAC 算法SAC v1/v2样本高效的连续控制,灵巧手操作常用
12. 模仿学习BC、DAgger、IRL从人类示教中学习机器人技能

1.3 推荐学习路线

MDP 基础 → 策略梯度 → Actor-Critic → PPO(必学)
↘ DDPG/TD3 → SAC
↘ 模仿学习

如果时间有限,建议优先掌握 MDP → Actor-Critic → PPO 这条主线,这是目前具身智能研究中最常用的组合。

1.4 参考

JoyRL Book