LLM 量化要把推理系统里最贵的显存、HBM 带宽和矩阵计算,转化成一套可控的数值近似问题。 在大模型推理里,参数要从 HBM 读,activation 要在层之间流动,decode 阶段还要持续维护 KV cache。模型越大、上下文越长、batch 越高,瓶颈越不像“算不过来”,而更像“数据搬不
Latest Notes
YANG's Blog
按时间整理的技术笔记、学习记录和工程实践。
理解 LLM 量化需要盯住 Linear 层。 大部分参数在这里,大部分 GEMM 在这里,大部分低比特 kernel 的收益和风险也在这里。 Transformer 里反复消耗显存带宽和算力的,主要是 attention 里的 q_proj、k_proj、v_proj、o_proj,MLP 里的
CUDA 编程不要按“语法课”学,要按 GPU 执行模型 → 内存层次 → 性能建模 → Kernel 优化 → AI 算子实现 这条线学。你以后做 AI Infra / 推理优化,核心不是“会写 CUDA”,而是能判断: 一个算子为什么慢?瓶颈在访存、计算、同步、调度、还是数据布局?怎么改 ker
好,你跳过了 A/B 的确认,那我假设你心里已经清楚了——但为了保险,我在进入 IS 之前用一句话把关键结论钉死,你边读边自检: A 的答案:期望要求采样自 $\pi\theta$(当前策略),但手上数据来自 $\pi{\theta_{\text{old}}}$(采样时的旧策略)。$\theta$
你的笔记已经按三个文件夹组织: source/_posts/AI_Model/ —— 模型架构本体(Transformer、RoPE…) source/_posts/AI_Infra/ —— 训练/推理基础设施(DDP、ZeRO、Pipeline、Kernel…) source/_posts/LL
模型代码只是冰山的一角。一个 7B 的 Dense Transformer 核心代码不到一千行,一个 600B 的 MoE 模型核心代码也就两三千行;而训练它的 infra 代码——5D 并行、混合精度、FP8、checkpoint、容错、RLHF rollout、推理服务——动辄几万到十几万行。算
本章定位:经典 RLHF 的”完整故事”。RM 把人类排序压缩成标量奖励,PPO 用它在 KL 约束下优化 Policy。RM + PPO 是不可分割的组合——PPO 的 reward 来自 RM。 承上:Ch5 SFT 提供 Policy / Reference / RM 的初始化;Ch1 §6
设定一个具体例子为了让矩阵形状清晰,我们用一个小模型: 1234d (hidden dim) = 8h (num heads) = 2d_h (head dim) = 4 (= d / h)B (batch size) = 1 (为简化,省略 batch 维) Prompt:"The ca
GPipe 把朴素模型并行救活了,但它有一个工程上的死结:bubble 想小就得加大 M,M 一大显存就炸。这一篇讲的 1F1B(One Forward One Backward)是 PP 的工业标准——它的 bubble 公式和 GPipe 完全一样,但因为巧妙地把”在飞 micro-batch
这一篇是 Ch2 Pipeline Parallel 的开篇。GPipe 是 Google 在 2018 年提出的第一代实用流水线方案,它的核心贡献只有一个——用 micro-batch 把朴素流水线的 bubble 压下去——但围绕这一招衍生出来的 bubble 公式、激活显存账、调度顺序,几乎是