2026-05-10
RL Chapter8 TRPO 与 PPO:信赖域与策略梯度的工程化
2026-05-10
学习笔记-强化学习
RL Chapter1 MDP 与 Bellman 方程
2026-05-09
学习笔记-强化学习
Chapter0 全景导读:LLM 训练全链路学习路径
2026-05-07
学习笔记-大模型
Chapter7 离线对齐:DPO 家族(IPO/KTO/ORPO/SimPO)
2026-04-03
学习笔记-大模型
推荐算法Chapter1.1 数据预处理与特征工程
2026-04-02
推荐系统
Chapter6 经典 RLHF:奖励模型 RM + PPO
2026-04-01
学习笔记-大模型
Chapter5 SFT 与参数高效微调:MLE、LoRA、QLoRA
2026-03-30
学习笔记-大模型