2026-04-10
Chapter7 离线对齐:DPO 家族(IPO/KTO/ORPO/SimPO)
2026-04-03
学习笔记-大模型
推荐算法Chapter1.1 数据预处理与特征工程
2026-04-02
推荐系统
Chapter6 经典 RLHF:奖励模型 RM + PPO
2026-04-01
学习笔记-大模型
Chapter5 SFT 与参数高效微调:MLE、LoRA、QLoRA
2026-03-30
学习笔记-大模型
Chapter2 视觉对比学习:InfoNCE 与 SimCLR/MoCo
2026-03-27
学习笔记-大模型
Chapter1 数学工具箱:相似度、散度与 LLM 损失基础
2026-03-27
学习笔记-大模型