Welcome
Chapter4 强化学习 RLHF Chapter4 强化学习 RLHF
我们可以把 RLHF 看作是将人类的“价值观”和“偏好”量化为奖励信号,并指导模型进化的过程。 RLHF (Reinforcement Learning from Human Feedback)的三大阶段1. 监督微调 (SFT - Sup
Chapter3 对比学习BYOL, SimSiam Chapter3 对比学习BYOL, SimSiam
BYOL (Bootstrap Your Own Latent)1. 核心理念BYOL 证明了在完全没有负样本(Negative Pairs)的情况下,通过构建非对称结构(Asymmetric Architecture)和预测机制,也能实现
Chapter2 对比学习(Contrastive Learning)的核心机理 Chapter2 对比学习(Contrastive Learning)的核心机理
深度进阶:对比学习(Contrastive Learning)的核心机理对比学习的核心思想是 “Instance Discrimination” (个体判别):通过构造正负样本对,在无标注数据下学习“物以类聚,人以群分”的特征表示。 1.
Chapter1 相似度度量(Similarity Measures) Chapter1 相似度度量(Similarity Measures)
相似度度量(Similarity Measures)1. 欧氏距离 (Euclidean Distance) —— 绝对位置的度量欧氏距离是最基础的 $L_2$ 范数。它衡量的是 $n$ 维空间中两个点之间的直线距离。 数学表达d(\mat