跳到主要内容

1. 绪论

强化学习（Reinforcement Learning, RL）是具身智能（Embodied Intelligence）的核心技术之一。与传统的监督学习不同，强化学习通过智能体与环境的交互来学习最优策略，天然适配机器人控制、运动规划等需要持续决策的场景。

1.1 为什么具身智能需要强化学习

具身智能要求智能体在物理世界（或其仿真环境）中感知、决策并执行动作。这与强化学习的核心范式高度吻合：

连续控制：机器人的关节力矩、末端速度等都是连续动作空间，正是策略梯度类算法的用武之地
序列决策：行走、抓取等任务需要在多个时步上持续做出决策，MDP 建模是标准方法
仿真到实物（Sim-to-Real）：在仿真环境（MuJoCo、Isaac Gym）中训练 RL 策略，再迁移到真实机器人，是当前主流范式
稀疏奖励：真实任务的奖励信号通常稀疏且延迟，RL 擅长处理这类信用分配问题

1.2 本教程涵盖的算法

本教程从具身智能的实际需求出发，精选了最常用的 RL 算法：

章节	算法	具身智能应用
2. 马尔可夫决策过程	MDP 基础	所有 RL 算法的理论基石
3. 动态规划	策略迭代、价值迭代	理解值函数更新和贝尔曼方程的理论起点
4. 蒙特卡洛方法	First-Visit MC、MC Control	从完整轨迹回报中估计价值，建立无模型学习直觉
5. 时序差分方法	TD(0)、SARSA、Q-Learning	深度强化学习中 Critic 和价值更新的核心机制
6. DQN 算法	DQN、经验回放、目标网络	深度价值学习起点，为连续控制算法打基础
7. 策略梯度方法	REINFORCE	策略优化的基础方法
8. Actor-Critic 算法	A2C / A3C / GAE	PPO、SAC 等算法的基础框架
9. DDPG 与 TD3 算法	DDPG、TD3	机械臂连续控制的经典方法
10. PPO 算法	PPO-Clip	具身智能最主流算法（Isaac Gym 默认）
11. SAC 算法	SAC v1/v2	样本高效的连续控制，灵巧手操作常用
12. 模仿学习	BC、DAgger、IRL	从人类示教中学习机器人技能

1.3 推荐学习路线

MDP 基础 → 策略梯度 → Actor-Critic → PPO（必学）
                                    ↘ DDPG/TD3 → SAC
                                    ↘ 模仿学习

如果时间有限，建议优先掌握 MDP → Actor-Critic → PPO 这条主线，这是目前具身智能研究中最常用的组合。

1.4 参考

1.1 为什么具身智能需要强化学习
1.2 本教程涵盖的算法
1.3 推荐学习路线
1.4 参考