RL Chapter13 RL × LLM 综述:PPO、DPO、GRPO 的统一视角 2026-05-21 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter12 模仿学习与逆 RL:BC、DAgger、GAIL、IRL 2026-05-20 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter11 离线强化学习:BCQ、CQL、IQL 与 DPO 的渊源 2026-05-19 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter10 探索:从 ε-greedy 到 Curiosity 2026-05-18 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter9 DDPG 与 SAC:连续控制的两个里程碑 2026-05-17 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter8 TRPO 与 PPO:信赖域与策略梯度的工程化 2026-05-16 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter7 DQN 家族:深度学习接入 Q-Learning 2026-05-15 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter6 Actor-Critic 与 GAE:Policy Gradient 的工业化 2026-05-14 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter5 Policy Gradient:直接对策略求梯度 2026-05-13 学习笔记-强化学习 AI 强化学习 AI面试知识 RL Chapter4 Q-Learning 与 SARSA:从评估到控制 2026-05-12 学习笔记-强化学习 AI 强化学习 AI面试知识