Tag: AI | YANG's Blog

Welcome

Post Tags

其他 9 Hexo 6 博客 1 教程 4 EJS 2 CSS 2 调试 2 JavaScript 2 前端 1 AI 65 数学 6 Attention 1 深度学习 4 ChatGPT 1 NLP 1 Transformer 2 RoPE 1 HTML 1 AI面试知识 25 LLM Foundation 1 AI Infra 18 日记 3 Python 17 PyTorch 2 tkinter 1 GUI 1 强化学习 14 ACM, 1 并查集 1 ACM组合计数 1 ACM/OI 99 数据结构 3 icpc 34 算法 58 ACM 4 博弈论 1 ICG 1 SG函数 1 codeforces 14 算法竞赛 23 动态规划 9 c语言 7 c++ 26 Codeforeces 3 C++ 6 Codeforces 7 数位DP 1 acm竞赛 8 线性代数 1 ACM/OI, 2 组合数学 1 数学期望 1 几何 1 ACM差分约束 1 图论 4 拓扑排序 1 二分图 1 leetcode 1 思维 1 递推 2 递归 1 树 1 AtCoder 1 ICPC 4 贪心算法 1 CUDA 1 Triton 1 Diffusion Models 9 推荐系统 7 BPR 1 协同过滤 1 模型量化 2 推荐算法 3 推荐算法-基础推荐模型原理与实现 3

                            
                            RL Chapter8 TRPO 与 PPO：信赖域与策略梯度的工程化
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter6 Actor-Critic 与 GAE：Policy Gradient 的工业化
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter7 DQN 家族：深度学习接入 Q-Learning
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter5 Policy Gradient：直接对策略求梯度
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter3 Monte Carlo 与 TD：从样本估计价值
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter4 Q-Learning 与 SARSA：从评估到控制
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter12 模仿学习与逆 RL：BC、DAgger、GAIL、IRL
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter2 动态规划 (DP)：策略评估、策略迭代、价值迭代
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter11 离线强化学习：BCQ、CQL、IQL 与 DPO 的渊源
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter13 RL × LLM 综述：PPO、DPO、GRPO 的统一视角
                        
                                2026-05-10
                            
                                学习笔记-强化学习

            
2 / 7