Category: 学习笔记-强化学习

Welcome

Post Categories

AI模型 4 其他 9 学习笔记-AI模型 2 博客搞建 6 Cuda算子 2 日记 3 学习笔记-大模型 9 Python 17 学习笔记-强化学习 14 ACM-ICPC 106 学习笔记- AI Infra 14 Diffusion Models 9 推荐系统 11

                            
                            RL Chapter2 动态规划 (DP)：策略评估、策略迭代、价值迭代
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter3 Monte Carlo 与 TD：从样本估计价值
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter6 Actor-Critic 与 GAE：Policy Gradient 的工业化
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter8 TRPO 与 PPO：信赖域与策略梯度的工程化
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter12 模仿学习与逆 RL：BC、DAgger、GAIL、IRL
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter5 Policy Gradient：直接对策略求梯度
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter4 Q-Learning 与 SARSA：从评估到控制
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter13 RL × LLM 综述：PPO、DPO、GRPO 的统一视角
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter10 探索：从 ε-greedy 到 Curiosity
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter11 离线强化学习：BCQ、CQL、IQL 与 DPO 的渊源
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习

            
1 / 2