Chapter6 经典 RLHF:奖励模型 RM + PPO(完整版) 2026-05-22 学习笔记-大模型 AI AI面试知识 Chapter0 全景导读:LLM 训练全链路学习路径 2026-05-07 学习笔记-大模型 AI AI面试知识 Chapter8 推理时代与 AI Feedback:GRPO、PRM、RLAIF、Constitutional AI 2026-04-05 学习笔记-大模型 AI AI面试知识 Chapter7 离线对齐:DPO 家族(IPO/KTO/ORPO/SimPO) 2026-04-03 学习笔记-大模型 AI AI面试知识 Chapter5 SFT 与参数高效微调:MLE、LoRA、QLoRA 2026-03-30 学习笔记-大模型 AI AI面试知识 Chapter4 自监督新范式:BYOL、SimSiam、DINO 与 EM 视角 2026-03-29 学习笔记-大模型 AI AI面试知识 Chapter3 多模态与文本对比学习:CLIP、SimCSE、BGE 与 RAG 检索器 2026-03-28 学习笔记-大模型 AI AI面试知识 Chapter2 视觉对比学习:InfoNCE 与 SimCLR/MoCo 2026-03-27 学习笔记-大模型 AI AI面试知识 Chapter1 数学工具箱:相似度、散度与 LLM 损失基础 2026-03-27 学习笔记-大模型 AI AI面试知识