Tag: AI面试知识 | YANG's Blog

Welcome

Post Tags

其他 9 Hexo 6 博客 1 教程 4 EJS 2 CSS 2 调试 2 JavaScript 2 前端 1 AI 65 数学 6 Attention 1 深度学习 4 ChatGPT 1 NLP 1 Transformer 2 RoPE 1 HTML 1 AI面试知识 25 LLM Foundation 1 AI Infra 18 日记 3 Python 17 PyTorch 2 tkinter 1 GUI 1 强化学习 14 ACM, 1 并查集 1 ACM组合计数 1 ACM/OI 99 数据结构 3 icpc 34 算法 58 ACM 4 博弈论 1 ICG 1 SG函数 1 codeforces 14 算法竞赛 23 动态规划 9 c语言 7 c++ 26 Codeforeces 3 C++ 6 Codeforces 7 数位DP 1 acm竞赛 8 线性代数 1 ACM/OI, 2 组合数学 1 数学期望 1 几何 1 ACM差分约束 1 图论 4 拓扑排序 1 二分图 1 leetcode 1 思维 1 递推 2 递归 1 树 1 AtCoder 1 ICPC 4 贪心算法 1 CUDA 1 Triton 1 Diffusion Models 9 推荐系统 7 BPR 1 协同过滤 1 模型量化 2 推荐算法 3 推荐算法-基础推荐模型原理与实现 3

                            
                            RL Chapter9 DDPG 与 SAC：连续控制的两个里程碑
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter8 TRPO 与 PPO：信赖域与策略梯度的工程化
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter6 Actor-Critic 与 GAE：Policy Gradient 的工业化
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter7 DQN 家族：深度学习接入 Q-Learning
                        
                                2026-05-10
                            
                                学习笔记-强化学习
                                
                            RL Chapter1 MDP 与 Bellman 方程
                        
                                2026-05-09
                            
                                学习笔记-强化学习
                                
                            RL Chapter0 全景与起源：从 Thorndike 的猫到 DeepSeek-R1
                        
                                2026-05-08
                            
                                学习笔记-强化学习
                                
                            Chapter0 全景导读：LLM 训练全链路学习路径
                        
                                2026-05-07
                            
                                学习笔记-大模型
                                
                            Chapter8 推理时代与 AI Feedback：GRPO、PRM、RLAIF、Constitutional AI
                        
                                2026-04-05
                            
                                学习笔记-大模型
                                
                            Chapter7 离线对齐：DPO 家族（IPO/KTO/ORPO/SimPO）
                        
                                2026-04-03
                            
                                学习笔记-大模型
                                
                            推荐算法Chapter1.1 数据预处理与特征工程
                        
                                2026-04-02
                            
                                推荐系统

            
2 / 3