2026-05-10
RL Chapter8 TRPO 与 PPO:信赖域与策略梯度的工程化
2026-05-10
学习笔记-强化学习
RL Chapter4 Q-Learning 与 SARSA:从评估到控制
2026-05-10
学习笔记-强化学习
RL Chapter5 Policy Gradient:直接对策略求梯度
2026-05-10
学习笔记-强化学习
RL Chapter2 动态规划 (DP):策略评估、策略迭代、价值迭代
2026-05-10
学习笔记-强化学习
1. Vector Addition
2026-05-09
LeetGPU
0. 从C++到CUDA
2026-05-09
LeetGPU
7. Checkpoint 与训练恢复
2026-05-09
学习笔记- AI Infra
6. 多机训练与 NCCL 工程
2026-05-09
学习笔记- AI Infra