YANG's Blog

2026-05-10 学习笔记- AI Infra

这一篇是 Ch2 Pipeline Parallel 的开篇。GPipe 是 Google 在 2018 年提出的第一代实用流水线方案,它的核心贡献只有一个——用 micro-batch 把朴素流水线的 bubble 压下去——但围绕这一招衍生出来的 bubble 公式、激活显存账、调度顺序,几乎是

AI AI Infra

RL Chapter10 探索：从 ε-greedy 到 Curiosity

2026-05-10 学习笔记-强化学习

本章定位：所有 RL 算法都隐式依赖”探索”才能成立——没有探索，agent 永远学不到更好的策略。本章系统讲解从经典多臂老虎机到现代 deep RL 的探索方法。承上：Ch4 ε-greedy + Ch9 高斯噪声 + Ch5/8 熵正则。启下：Ch11 offline RL（不需要探索的极端

AI AI面试知识强化学习

RL Chapter13 RL × LLM 综述：PPO、DPO、GRPO 的统一视角

2026-05-10 学习笔记-强化学习

本章定位：整套笔记的终章。把前 12 章的 RL 知识应用到 LLM 时代——PPO/DPO/GRPO/RLAIF/PRM 在数学和工程上分别属于哪个 RL 范式，为什么不同公司选不同算法，以及 R1/o1 等推理模型如何”用 RL 涌现思考能力”。承上：本系列全部章节。关联：与《学习笔记-大模

AI AI面试知识强化学习

RL Chapter11 离线强化学习：BCQ、CQL、IQL 与 DPO 的渊源

2026-05-10 学习笔记-强化学习

本章定位：和前面所有章节（online RL）正相反——完全不与环境交互，只用预先收集的固定数据集训练。这是医疗、自动驾驶、推荐系统的现实约束，也是 DPO 的数学根基。理解 offline RL，就理解了为什么 DPO 能存在。承上：Ch4 Q-Learning + Ch9 DDPG/SAC（

AI AI面试知识强化学习

RL Chapter2 动态规划 (DP)：策略评估、策略迭代、价值迭代

2026-05-10 学习笔记-强化学习

本章定位：在 MDP 已知（$P, R$ 已知）的前提下，迭代求解 Bellman 方程。DP 是 RL 的”理论基线”——后续所有 model-free 方法（MC、TD、Q-Learning、PG、PPO）都是在 DP 不可行时（MDP 未知）的替代方案。承上：Ch1 §A.4 Bellma

AI AI面试知识强化学习

RL Chapter12 模仿学习与逆 RL：BC、DAgger、GAIL、IRL

2026-05-10 学习笔记-强化学习

本章定位：模仿学习从专家演示中学策略，SFT 的 RL 视角即 BC。本章串起 BC → DAgger → GAIL → IRL，最后回到 LLM：为什么 SFT 不够（BC 的分布偏移），为什么需要 RLHF（DPO 是 GAIL 风格的偏好学习）。承上：Ch11 offline RL 的极端

AI AI面试知识强化学习

RL Chapter4 Q-Learning 与 SARSA：从评估到控制

2026-05-10 学习笔记-强化学习

本章定位：把 Ch3 的 TD 思想从”评估”扩展到”控制”——直接从交互经验中学最优策略，不需要已知 MDP。Q-Learning 是 RL 史上最经典的算法，第一个在理论上保证收敛到最优的 model-free 控制方法。承上：Ch2 §6 GPI 框架 + Ch3 §A.2 TD-erro

AI AI面试知识强化学习

RL Chapter3 Monte Carlo 与 TD：从样本估计价值

2026-05-10 学习笔记-强化学习

本章定位：DP（Ch2）需要已知 MDP，但现实中 $P, R$ 几乎总是未知。本章引入 RL 的核心思想——从交互样本估计 Bellman 方程，奠定后续所有 model-free 算法的基础。承上：Ch1 §A.7 的 $Q^\pi$ 采样形式 + Ch2 §6 的 GPI 框架。启下：Ch

AI AI面试知识强化学习

RL Chapter5 Policy Gradient：直接对策略求梯度

2026-05-10 学习笔记-强化学习

本章定位：RL 的另一条主线——直接参数化策略并求梯度上升。Policy Gradient 是 PPO（Ch8）、DPO（Ch11/Ch13）、GRPO 的共同根基。本章包含整套 RL 中最重要的一个证明：策略梯度定理。承上：Ch1 价值函数 + Ch3 期望估计。启下：Ch6 把 PG + 价

AI AI面试知识强化学习

RL Chapter7 DQN 家族：深度学习接入 Q-Learning

2026-05-10 学习笔记-强化学习

本章定位：把 Ch4 的 Q-Learning 从表格法升级到神经网络，进入”深度强化学习”时代。DQN（DeepMind 2013/2015）是 RL 史上的里程碑——首次在大状态空间（Atari 像素输入）上达到人类水平。承上：Ch4 Q-Learning 公式 + Ch1 Bellman

AI AI面试知识强化学习