YANG's Blog

Welcome

梦想

享受当下做的每一件事 Live a Life You will Remember

                            
                            Chapter6 经典 RLHF：奖励模型 RM + PPO（完整版）
                        
                                2026-05-22
                            
                                    学习笔记-大模型
                                
                            AI
                        
                            AI面试知识
                        
                            0. KV Cache
                        
                                2026-05-14
                            
                                    学习笔记- AI Infra
                                
                            AI
                        
                            AI Infra
                        
                            2. 1F1B
                        
                                2026-05-11
                            
                                    学习笔记- AI Infra
                                
                            AI
                        
                            AI Infra
                        
                            3. Interleaved 1F1B
                        
                                2026-05-10
                            
                                    学习笔记- AI Infra
                                
                            AI
                        
                            AI Infra
                        
                            1. GPipe:朴素流水线与 micro-batch
                        
                                2026-05-10
                            
                                    学习笔记- AI Infra
                                
                            AI
                        
                            AI Infra
                        
                            RL Chapter11 离线强化学习：BCQ、CQL、IQL 与 DPO 的渊源
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter10 探索：从 ε-greedy 到 Curiosity
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter13 RL × LLM 综述：PPO、DPO、GRPO 的统一视角
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter4 Q-Learning 与 SARSA：从评估到控制
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习
                        
                            RL Chapter5 Policy Gradient：直接对策略求梯度
                        
                                2026-05-10
                            
                                    学习笔记-强化学习
                                
                            AI
                        
                            AI面试知识
                        
                            强化学习

            
1 / 21