Chapter3 对比学习BYOL， SimSiam

AI大学习

Publish Date: 2026-03-28

BYOL (Bootstrap Your Own Latent)

BYOL 证明了在完全没有负样本（Negative Pairs）的情况下，通过构建非对称结构（Asymmetric Architecture）和预测机制，也能实现有效的自监督学习，并成功避免模型塌缩（Collapse）。

BYOL 由两个互动的网络分支组成：

Online Network（在线网络）: 参数为 $\theta$。
- 组成：
  - Encoder $f_\theta$：通常是 ResNet-50。它将增强后的图像 $v$ 映射为高维特征向量 $h_\theta$。
  - Projector $g_\theta$：一个多层感知机（MLP）。它将 $h_\theta$ 投影到一个更紧凑的空间 $z_\theta$。
  - Predictor $q_\theta$（核心层）：又一个 MLP。它试图将 $z_\theta$ 映射到 Target 网络的表示空间，输出 $\hat{z}_\theta$。
- 更新方式：通过梯度下降（SGD/Adam）实时更新。
Target Network（目标网络）: 参数为 $\xi$。
- 组成：
  - Encoder $f_\xi$：结构与 $f_\theta$ 完全一致。
  - Projector $g_\xi$：结构与 $g_\theta$ 完全一致。
- 更新方式：动量更新（EMA），不计算梯度。其参数是 Online 参数的历史加权平均。

视图生成: 对原始图片 $x$ 进行两种随机数据增强，得到视图 $v$ 和 $v’$。（例如一张裁剪，一张变色）
Online 前向传播: 视图 $v$ 经过编码器、投影层和预测层，输出 $\hat{z}_\theta = q_\theta(g_\theta(f_\theta(v)))$
Target 前向传播: 视图 $v’$ 经过编码器和投影层，输出目标表示 $z_\xi = g_\xi(f_\xi(v'))$
损失计算:
- 对 $\hat{z}_\theta$ 和 $z_\xi$ 进行 $L_2$ 归一化。
- 计算均方误差（MSE）：$L = |\bar{q}_\theta(z_\theta) - \bar{z}_\xi|_2^2$（本质上是最大化余弦相似度）。
梯度与参数更新:
- Online: 计算 $L$ 对 $\theta$ 的梯度并执行更新。
- Target: 不传梯度，执行动量平滑更新：$\xi \leftarrow m\xi + (1-m)\theta$。

数学本质: 在没有负样本时，模型为了最小化 Loss，最简单的“捷径”是将所有输入映射为同一个常数向量（常数映射）。此时正样本对相似度为 1，Loss 为 0，但模型失去了特征区分能力。
假设模型 $f_\theta$ 将所有输入 $x$ 都映射成一个单位向量 $c$（例如 $[1, 0, 0, \dots]$）。
- 对于任意一对正样本 $(v, v’)$，它们的输出分别是 $z = c$ 和 $z’ = c$。
- 此时，余弦相似度 $\cos(z, z’) = 1$，损失函数 $L = 1 - \cos(z, z’) = 0$。

Predictor 的预测作用: Predictor 引入了非线性变换，使得 Online 端必须去“预测” Target 的特征，而不仅仅是简单的恒等拷贝。
Stop-gradient（停止梯度）: 关键在于梯度不流向 Target 分支。这使得 Target 在优化过程中是一个“被动观察者”，不会为了减小 Loss 而主动向常数解靠拢。
动量滞后性: Target 网络是 Online 网络的一个“缓慢移动的影子”。这种时间上的滞后和不一致性打破了坍缩所需的同步性。