2026-05-21
RL Chapter12 模仿学习与逆 RL:BC、DAgger、GAIL、IRL
2026-05-20
RL Chapter11 离线强化学习:BCQ、CQL、IQL 与 DPO 的渊源
2026-05-19
RL Chapter10 探索:从 ε-greedy 到 Curiosity
2026-05-18
RL Chapter9 DDPG 与 SAC:连续控制的两个里程碑
2026-05-17
RL Chapter8 TRPO 与 PPO:信赖域与策略梯度的工程化
2026-05-16
RL Chapter7 DQN 家族:深度学习接入 Q-Learning
2026-05-15
RL Chapter5 Policy Gradient:直接对策略求梯度
2026-05-13
RL Chapter4 Q-Learning 与 SARSA:从评估到控制
2026-05-12