2026-05-26
Chapter6 经典 RLHF:奖励模型 RM + PPO
2026-05-22
学习笔记-大模型
RL Chapter5 Policy Gradient:直接对策略求梯度
2026-05-10
学习笔记-强化学习
RL Chapter3 Monte Carlo 与 TD:从样本估计价值
2026-05-10
学习笔记-强化学习
RL Chapter4 Q-Learning 与 SARSA:从评估到控制
2026-05-10
学习笔记-强化学习
RL Chapter2 动态规划 (DP):策略评估、策略迭代、价值迭代
2026-05-10
学习笔记-强化学习
RL Chapter10 探索:从 ε-greedy 到 Curiosity
2026-05-10
学习笔记-强化学习