Tag: 强化学习 | YANG's Blog

Welcome

Post Tags

AI 62 Attention 1 深度学习 4 Transformer 2 数学 6 其他 9 ChatGPT 1 NLP 1 RoPE 1 Hexo 6 博客 1 教程 4 JavaScript 2 前端 1 EJS 2 CSS 2 调试 2 AI Infra 16 日记 3 AI面试知识 24 HTML 1 Python 17 PyTorch 2 tkinter 1 GUI 1 强化学习 14 ACM/OI 99 算法 58 动态规划 9 Codeforeces 3 icpc 34 C++ 6 c语言 7 c++ 26 codeforces 14 ACM 4 博弈论 1 ICG 1 SG函数 1 图论 4 ACM差分约束 1 leetcode 1 拓扑排序 1 二分图 1 数位DP 1 数据结构 3 算法竞赛 23 Codeforces 7 ACM, 1 并查集 1 ACM组合计数 1 贪心算法 1 acm竞赛 8 数学期望 1 线性代数 1 ACM/OI, 2 组合数学 1 几何 1 思维 1 递推 2 递归 1 树 1 AtCoder 1 ICPC 4 CUDA 1 Triton 1 Diffusion Models 9 推荐系统 7 BPR 1 协同过滤 1 推荐算法 3 推荐算法-基础推荐模型原理与实现 3

                            
                            RL Chapter2 动态规划 (DP)：策略评估、策略迭代、价值迭代
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter3 Monte Carlo 与 TD：从样本估计价值
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter6 Actor-Critic 与 GAE：Policy Gradient 的工业化
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter8 TRPO 与 PPO：信赖域与策略梯度的工程化
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter12 模仿学习与逆 RL：BC、DAgger、GAIL、IRL
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter5 Policy Gradient：直接对策略求梯度
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter4 Q-Learning 与 SARSA：从评估到控制
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter13 RL × LLM 综述：PPO、DPO、GRPO 的统一视角
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter10 探索：从 ε-greedy 到 Curiosity
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter11 离线强化学习：BCQ、CQL、IQL 与 DPO 的渊源
                        
                                2026-05-10
                            
                                学习笔记-强化学习

            
1 / 2