1. 绪论
强化学习(Reinforcement Learning, RL)是具身智能(Embodied Intelligence)的核心技术之一。与传统的监督学习不同,强化学习通过智能体与环境的交互来学习最优策略,天然适配机器人控制、运动规划等需要持续决策的场景。
1.1 为什么具身智能需要强化学习
具身智能要求智能体在物理世界(或其仿真环境)中感知、决策并执行动作。这与强化学习的核心范式高度吻合:
- 连续控制:机器人的关节力矩、末端速度等都是连续动作空间,正是策略梯度类算法的用武之地
- 序列决策:行走、抓取等任务需要在多个时步上持续做出决策,MDP 建模是标准方法
- 仿真到实物(Sim-to-Real):在仿真环境(MuJoCo、Isaac Gym)中训练 RL 策略,再迁移到真实机器人,是当前主流范式
- 稀疏奖励:真实任务的奖励信号通常稀疏且延迟,RL 擅长处理这类信用分配问题
1.2 本教程涵盖的算法
本教程从具身智能的实际需求出发,精选了最常用的 RL 算法:
| 章节 | 算法 | 具身智能应用 |
|---|---|---|
| 2. 马尔可夫决策过程 | MDP 基础 | 所有 RL 算法的理论基石 |
| 3. 动态规划 | 策略迭代、价值迭代 | 理解值函数更新和贝尔曼方程的理论起点 |
| 4. 蒙特卡洛方法 | First-Visit MC、MC Control | 从完整轨迹回报中估计价值,建立无模型学习直觉 |
| 5. 时序差分方法 | TD(0)、SARSA、Q-Learning | 深度强化学习中 Critic 和价值更新的核心机制 |
| 6. DQN 算法 | DQN、经验回放、目标网络 | 深度价值学习起点,为连续控制算法打基础 |
| 7. 策略梯度方法 | REINFORCE | 策略优化的基础方法 |
| 8. Actor-Critic 算法 | A2C / A3C / GAE | PPO、SAC 等算法的基础框架 |
| 9. DDPG 与 TD3 算法 | DDPG、TD3 | 机械臂连续控制的经典方法 |
| 10. PPO 算法 | PPO-Clip | 具身智能最主流算法(Isaac Gym 默认) |
| 11. SAC 算法 | SAC v1/v2 | 样本高效的连续控制,灵巧手操作常用 |
| 12. 模仿学习 | BC、DAgger、IRL | 从人类示教中学习机器人技能 |
1.3 推荐学习路线
MDP 基础 → 策略梯度 → Actor-Critic → PPO(必学)
↘ DDPG/TD3 → SAC
↘ 模仿学习
如果时间有限,建议优先掌握 MDP → Actor-Critic → PPO 这条主线,这是目前具身智能研究中最常用的组合。