DDPM 入门

由于渲染器的限制，多行公式只能分配一个标号，以式 (9.8) 代表式 (9) 第 8 行，以此类推。
本文的噪声项所使用的符号与原文稍有出入，请读者自行斟酌。

前置

高斯混合模型

一个复杂分布 $P_{\theta}$ 可以用 $K$ 个高斯分布来表示。

P_{\theta} = \sum_{i=1}^{K} P (z_i) P_{\theta} (x\vert z_i) \tag{1}

由于 $\int P(z) = 1$ ，用一个连续的高斯分布来表示 $P(z) \sim \mathcal{N}(0, 1)$ ，因此

P_{\theta} = \int P (z_i) * P_{\theta} (x\vert z_i) \tag{2}

KL 散度

D_{KL}(p\|q)= -\int\limits_{x} p(x) \log \frac{q(x)}{p(x)} dx \quad (m \to \infty) \tag{3}

重参数

重参数 (Reparameterization) 是处理期望形式目标函数的一种技巧。

\mathcal{L}_{\theta} = \mathbb{E}_{z \sim p_{\theta}(z)} \left[ f(z) \right] \tag{4}

为使得采样过程能够保留 $\theta$ 信息，假设从分布 $p_{\theta}(z)$ 中采样可以分解为两个步骤：

从无参数分布 $q(\epsilon)$ 中采样一个 $\epsilon$ ；
通过变换 $z = g_{\theta}(\epsilon)$ 生成 $z$ 。

那么，式 (4) 就变成了

\mathcal{L}_{\theta} = \mathbb{E}_{\varepsilon \sim q(\varepsilon)} \left[ f(g_{\theta}(\varepsilon)) \right] \tag{5}

被采样的分布就没有任何参数了，全部被转移到 $f$ 内部。

对高斯分布而言，由于

z \sim \mathcal{N}(\mu, \sigma^2) \Leftrightarrow \frac{z - \mu}{\sigma} \sim \mathcal{N}(0, 1) \tag{6}

则其重参数化

\mathbb{E}_{z \sim \mathcal{N}(z; \mu_\theta, \sigma_\theta^2)} \left[ f(z) \right] = \mathbb{E}_{\varepsilon \sim \mathcal{N}(\varepsilon; 0, 1)} \left[ f(\varepsilon \times \sigma_\theta + \mu_\theta) \right] \tag{7}

也就是将「从 $\mathcal{N}(z; \mu_{\theta}, \sigma^2_{\theta})$ 中采样一个 $z$ 」转化为：

从 $\mathcal{N}(\epsilon; 0, 1)$ 中采样一个 $\varepsilon$
计算 $z = \varepsilon \times \sigma_{\theta} + \mu_{\theta}$

优化目标

初衷是希望生成模型所产生的图片所遵从的概率分布尽可能接近真实世界图片的概率分布。使用 KL 散度描述，得到：

\arg\min_{\theta} \mathrm{KL}(P_{\text{data}} \parallel P_{\theta}) \tag{8}

其中 $P_{\theta}$ 是模型所预测的分布， $P_{data}$ 为真实分布。对上式做如下变换

\begin{aligned} \arg\min_{\theta} \mathrm{KL}(P_{\text{data}} \parallel P_{\theta}) &= \arg\min_{\theta} -\int\limits_{x} P_{\text{data}}(x) \log\frac{P_{\theta}(x)}{P_{\text{data}}(x)} dx \\ &= \arg\max_{\theta} \int\limits_{x} P_{\text{data}}(x) \log\frac{P_{\theta}(x)}{P_{\text{data}}(x)} dx \\ &= \arg\max_{\theta} \int\limits_{x} P_{\text{data}}(x) \log P_{\theta}(x) dx - \arg\max_{\theta} \int\limits_{x} P_{\text{data}}(x) \log P_{\text{data}}(x) dx \\ &= \arg\max_{\theta} \int\limits_{x} P_{\text{data}}(x) \log P_{\theta}(x) dx \\ &= \arg\max_{\theta} \mathbb{E}_{x\sim P_{\text{data}}}[\log P_{\theta}(x)] \\ &\approx \arg\max_{\theta} \sum\limits_{i=1}^{m} \log P_{\theta}(x_i) \\ &= \arg\max_{\theta} \log \prod\limits_{i=1}^{m} P_{\theta}(x_i) \\ &= \arg\max_{\theta} \prod\limits_{i=1}^{m} P_{\theta}(x_i) \tag{9} \end{aligned}

式 (9.8) 得到新的优化目标 $\arg\max_{\theta} \prod\limits_{i=1}^{m} P_{\theta}(x_i)$ 。

Lower Bound

要使式 (9.8) 成立，即极大似然估计 (Maximum Likelihood Estimate)

\text{MLE} \quad \theta^{*} = \argmax_{\theta} P _{\theta}(x) \tag{10}

令 $q(z \vert x)$ 是某个概率分布 (实际上是加噪过程的分布 $q_{\phi}$ ，通常记作 $q(x_{1..T}|x_0)$ ， $\phi$ 代表加噪过程的参数)，则

\begin{aligned} \log(P_\theta(x)) &= \log(P_\theta(x)) \cdot \int q(z|x) \, dz \\ &= \int \log\left(\frac{P_\theta(x,z)}{P_\theta(z|x)}\right) q(z|x) \, dz \\ &= \int \log\left(\frac{P_\theta(x,z)}{q(z|x)} \cdot \frac{q(z|x)}{P_\theta(z|x)}\right) q(z|x) \, dz \\ &= \int \log\left(\frac{P_\theta(x,z)}{q(z|x)}\right) q(z|x) \, dz + \text{KL}(q(z|x) \parallel P_\theta(z|x)) \\ &\geq \int \log\left(\frac{P_\theta(x,z)}{q(z|x)}\right) q(z|x) \, dz \\ &= \mathbb{E}_{q(Z|X)}\left[\log\left(\frac{P_\theta(x,z)}{q(z|x)}\right)\right] \\ \tag{11} \end{aligned}

式 (11.1) → (11.2)，由 $P_{\theta}(x, z) = P_{\theta}(x) * P_{\theta}(z | x)$

式 (11.4)，由 $\text{KL}(p\|q) = \int{p\log{\frac{p}{q}}} \ge 0$

因此，要优化最大对数似然，就是在优化 Evidence Lower Bound (ELBO). 至此，得到初步的优化目标，下面开始讲解 DDPM.

DDPM

Overview

通俗理解 DDPM。允许多步 ( $T$ ) 生成过程，从而分多次估计噪声 $\hat{\epsilon}_t$ 比一步估计图片 $x_T → \hat{x}_0$ 容易，或者说逐步学习去噪过程的分布 $p_{\theta}$ 比直接学习 $P_{\theta}$ 简单。DDPM 的大部分数学框架在更早时候已有之，而该工作的最大贡献其实是用 U-Net 作为噪声估计器调通了这一模型，并得到了不错的效果。

前向扩散过程

给定初始数据分布 $x_0 \sim q(x)$ ，前向扩散过程向 $x_0$ 逐步添加 $T$ 次高斯噪声，得到一系列带噪声图片 $x_1, ..., x_T$ 。定义 $x_{t-1} \rightarrow x_t$ 的加噪过程：

q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}) \tag{12}

q(\mathbf{x}_{1:T} | \mathbf{x}_0) = \prod_{t=1}^T q(\mathbf{x}_t | \mathbf{x}_{t-1}) \tag{13}

从而，加噪过程是一个人为定义的马尔可夫链，满足分布 $\mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})$ ，生成 $x_{t-1} \rightarrow x_t$ 的过程只由 $\{\beta_t, x_{t-1}\}$ 确定。 $\beta_1, ..., \beta_T$ 是超参数，提前确定 $\beta_1, ..., \beta_T$ 后即可得到加噪过程 $x_1, ..., x_T$ 任意一步。

关于 $q_{\phi}$ 的设计。为什么选择 $\sqrt{1-\beta_t}$ 和 $\sqrt{\beta_t}$ 用于修饰加噪过程的均值和方差，并不知道 DDPM 的前置工作中是否有提及。但在训练过程中，这个设计可以方便地引出 $\alpha_t$ 和 $\bar{\alpha}_t$ 的定义，从而实现对 $x_0 \rightarrow x_t$ 的一步加噪。

随着加噪过程的进行， $\beta_t$ 不断 (线性) 增大，即每一步的噪声比例不断升高。注意，此时我们实际上只定义了加噪过程满足的分布 $q_{\phi}$ ，尚未定义实际的加噪过程，这部分将在「噪声采样」一节说明。但可以明确的是，当 $T \rightarrow \infty$ ， $x_T$ 趋近于一个各向独立的高斯分布，视觉上就是一张接近纯粹高斯噪声的「雪花」图。

噪声采样

上一节提到，正向扩散过程向 $\mathbf{x}_0$ 逐步添加 $T$ 次高斯噪声。这可以写作

\mathbf{x}_T = \mathbf{x}_0 + \eta_1 + \eta_2 + ... + \eta_T \tag{14}

反向生成过程则需要通过噪声估计器对噪声进行预测。考虑某一步去噪过程 $\mathbf{x}_{t-1} \leftarrow \mathbf{x}_t$ ，我们希望用 $p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ 去预测 $q(\mathbf{x}_{t-1}|\mathbf{x}_{t})$ ，由于是期望形式的优化目标，直接采样，梯度信息却无法传递到 $\theta$ 上。由式 (7)，使用重参数化技巧，每次加噪从 $\varepsilon_t \sim \mathcal{N}(0, I)$ 采样，令

\mathbf{x}_t = \sqrt{1 - \beta_t}\mathbf{x}_{t-1} + \sqrt{\beta_t}\varepsilon_{t-1} \tag{15}

此时就实现了将高斯噪声项参数化，得到的 $\mathbf{x}_t$ 服从式 (12) 分布。

有同学会问， $\beta_t$ 不是超参吗，努力把随机性转移到 $\varepsilon_t$ 做什么，为什么不能直接从式 (12) 采样呢。其实加噪过程是可以这样做的，但重参数化同时也面向去噪过程，下文将说明，后验扩散条件概率 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 是 Markov 的， $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 则不是，所以才要用 $p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 预测 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ ，这个过程就要用神经网络对 $\theta$ 优化，从而需要传递梯度。

实际上，先有一个类似式 (14) (15) 的符合 Intuition 的加噪过程，再将其解释为一个分布，这样更加容易理解。

一步加噪

从 $\mathbf{x}_0$ 和固定序列 $\{\beta_t \in (0, 1)\}_{t=1}^{T}$ 可以直接得到任意一步 $\mathbf{x}_t$ ，从而省去前向迭代。这使得训练过程变得容易，同时方便引出逆扩散过程 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 的定义。

令 $\alpha_t = 1 - \beta_t,\overline{\alpha}_t = \prod_{i=1}^t \alpha_i$ ，有

\begin{aligned} \mathbf{x}_t &= \sqrt{1 - \beta_t}\mathbf{x}_{t-1} + \sqrt{\beta_t}\varepsilon_{t-1} \\ &=\sqrt{1 - \beta_t} (\sqrt{1 - \beta_{t-1}}\mathbf{x}_{t-2} + \sqrt{\beta_{t-1}}\varepsilon_{t-2}) + \sqrt{\beta_t}\varepsilon_{t-1} \\ &= \sqrt{\alpha_t\alpha_{t-1}}\mathbf{x}_{t-2} + \sqrt{\alpha_{t}(1 - \alpha_{t-1})} \varepsilon_{t-2} + \sqrt{1 - \alpha_{t}} \varepsilon_{t-1} \\ &= \sqrt{\alpha_t\alpha_{t-1}}\mathbf{x}_{t-2} + \sqrt{1 - \alpha_t\alpha_{t-1}}\varepsilon \\ &... \\ &= \sqrt{\overline{\alpha}_t}x_0 + \sqrt{1 - \overline{\alpha}_t} \varepsilon \tag{16} \end{aligned}

式 (16.3) → (16.4)，由两个独立高斯分布相加仍为高斯分布，且均值为二者均值和，方差为二者方差和。

后文我们会把式 (16.5) 写成 $\mathbf{x}_t = \sqrt{\overline{\alpha}_t}x_0 + \sqrt{1 - \overline{\alpha}_t} \varepsilon_t$ ，注意 $\varepsilon_t$ 在这里表示 $\mathbf{x}_0 \rightarrow \mathbf{x}_t$ 所加噪声。

由式 (6) (16) 可得

q\left( \mathbf{x}_{t} \mid \mathbf{x}_{0} \right) = \mathcal{N}\left( \mathbf{x}_{t}; \sqrt{\bar{\alpha}_{t}} \mathbf{x}_{0}, \left(1 - \bar{\alpha}_{t}\right) \mathbf{I} \right) \tag{17}

式 (17) 重参数化就是式 (16.5)，现在可以实现一步加噪了。

反向生成过程

如果能运行逆扩散过程，即从 $q\left( \mathbf{x}_{t-1} \mid \mathbf{x}_{t} \right)$ 中采样，那么就可以从一个随机的高斯分布 $\mathcal{N}$ 中重建出一个真实的原始样本。这个过程可以写作一个边缘似然

P_\theta(\mathbf{x}_0) = \int p_\theta(\mathbf{x}_{0:T}) \, d\mathbf{x}_{1:T} \tag{18}

上式中 $d\mathbf{x}_{1:T}$ 代表对所有 $\mathbf{x}_1..\mathbf{x}_T$ 的可能路径积分。其中

p_\theta(\mathbf{x}_{0:T}) = p(\mathbf{x}_T) \cdot p_\theta(\mathbf{x}_{T-1}|\mathbf{x}_T) \cdot p_\theta(\mathbf{x}_{T-2}|\mathbf{x}_{T-1}) \cdots p_\theta(\mathbf{x}_1|\mathbf{x}_0) \tag{19}

定义 $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 前，首先考虑 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ ，根据贝叶斯公式，有

q(\mathbf{x}_{t-1}|\mathbf{x}_t) = \dfrac{q(\mathbf{x}_t|\mathbf{x}_{t-1})q(\mathbf{x}_{t-1})}{q(\mathbf{x}_t)} \tag{20}

研究这个分布有些困难，因为 $q(\mathbf{x}_{t}), q(\mathbf{x}_{t-1})$ 未知。但是 $q(\mathbf{x}_t|\mathbf{x}_0), q(\mathbf{x}_{t-1}|\mathbf{x}_0)$ 已知，可以先由 $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)$ 入手

q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0) = \dfrac{q(\mathbf{x}_t|\mathbf{x}_{t-1}, \mathbf{x}_0)q(\mathbf{x}_{t-1}|\mathbf{x}_0)}{q(\mathbf{x}_t|\mathbf{x}_0)} \tag{21}

由式 (17)

q\left( \mathbf{x}_{t-1} \mid \mathbf{x}_{0} \right) = \mathcal{N}\left( \mathbf{x}_{t-1}; \sqrt{\bar{\alpha}_{t-1}} \mathbf{x}_{0}, \left(1 - \bar{\alpha}_{t-1}\right) \mathbf{I} \right) \tag{22}

由式 (12) (17) (21) (22)

\begin{aligned} \frac{q(\mathbf{x}_t|\mathbf{x}_{t-1}, \mathbf{x}_0)q(\mathbf{x}_{t-1}|\mathbf{x}_0)}{q(\mathbf{x}_t|\mathbf{x}_0)} &\propto \exp\left\{-\frac{1}{2} \left[ \frac{(\mathbf{x}_t - \sqrt{\alpha_t}\mathbf{x}_{t-1})^2}{\beta_t} + \frac{(\mathbf{x}_{t-1} - \sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0)^2}{1 - \bar{\alpha}_{t-1}} - \frac{(\mathbf{x}_t - \sqrt{\bar{\alpha}_t}\mathbf{x}_0)^2}{1 - \bar{\alpha}_t} \right]\right\} \\ &= \exp\left\{-\frac{1}{2} \left[ \left(\frac{\alpha_t}{\beta_t} + \frac{1}{1 - \bar{\alpha}_{t-1}}\right)\mathbf{x}_{t-1}^2 - 2\left(\frac{\sqrt{\alpha_t}\mathbf{x}_t}{\beta_t} + \frac{\sqrt{\bar{\alpha}_{t-1}}\mathbf{x}_0}{1 - \bar{\alpha}_{t-1}}\right)\mathbf{x}_{t-1} + C(\mathbf{x}_t, \mathbf{x}_0) \right]\right\} \tag{23} \end{aligned}

式 (23.2) 是一个高斯分布。令

\left\{ \begin{aligned} &\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) =\frac{\sqrt{\alpha_t}(1 - \bar{\alpha}_{t-1})}{1 - \bar{\alpha}_t} \mathbf{x}_t + \frac{\sqrt{\bar{\alpha}_{t-1}} (1-\alpha_t)}{1 - \bar{\alpha}_t} \mathbf{x}_0 \\ &\tilde{\sigma_t} = \beta_t \cdot \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \end{aligned} \right. \tag{24}

因此

\frac{q(\mathbf{x}_t|\mathbf{x}_{t-1}, \mathbf{x}_0)q(\mathbf{x}_{t-1}|\mathbf{x}_0)}{q(\mathbf{x}_t|\mathbf{x}_0)} \sim \mathcal{N}\left(\mathbf{x}_{t-1}; \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\sigma}_t\mathbf{I}\right) \tag{25}

可知，在 $\mathbf{x}_0$ 已知的前提下， $q(\mathbf{x}_{t-1}|\mathbf{x}_t, \mathbf{x}_0)=q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ ，反向生成过程也是一个马尔可夫链，满足分布 $\mathcal{N}\left(\mathbf{x}_{t-1}; \tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0), \tilde{\sigma}_t\mathbf{I}\right)$ .

但实际上，模型在反向过程中并不事先知道 $\mathbf{x}_0$ ，我们最终希望得到的是 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 。考虑 $\mathbf{x}_0 = \frac{1}{\sqrt{\bar{\alpha}_t}} \left( \mathbf{x}_t - \sqrt{1 - \bar{\alpha}_t} \cdot \varepsilon_t \right)$ ，将式 (24) 改写为

\left\{ \begin{aligned} &\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \varepsilon_t \right) \\ &{\tilde{\sigma_t}}^2 = (1 - \alpha_t) \cdot \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \end{aligned} \right. \tag{26}

$\varepsilon_t$ 在这里表示 $\mathbf{x}_0 \rightarrow \mathbf{x}_t$ 所加噪声。这样一来便消去了 $\mathbf{x}_0$ ，并且实际上已经写出了网络要预测的对象 (即 $\varepsilon_t$ )，在代码中，我们将用 UNet 作为噪声预测器 $\varepsilon_{\theta}$ 对其分布进行拟合。若写成 $\varepsilon_t = \varepsilon_{\theta}(\mathbf{x}_t, t)$ ，则生成 $x_{t-1} \leftarrow x_t$ 的过程只由 $\{\alpha_t, \mathbf{x}_{t}\}$ 确定，得到一个近似的遵循高斯分布的马尔可夫链。

根据以上讨论，整理最终表述。前文已经说明，要用 $p_{\theta}$ 去拟合真实的 $q(\mathbf{x}_{t-1}|\mathbf{x}_t)$ ，因此， $p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 定义为高斯分布

p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) = \mathcal{N}\left(\mathbf{x}_{t-1}; \mu_\theta(\mathbf{x}_t, t), \Sigma_\theta(\mathbf{x}_t, t)\right) \tag{27}

$\mu_{\theta}(\mathbf{x}_t, t)$ 与 $\Sigma_{\theta}(\mathbf{x}_t, t)$ 在下一节介绍。

整理我们得到的三个分布。前向扩散过程

q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1 - \beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I})

$\mathbf{x}_0$ 已知的逆扩散过程

q(\mathbf{x}_{t-1} | \mathbf{x}_{t}, \mathbf{x}_0) = \mathcal{N}(\mathbf{x}_t; \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \varepsilon_t \right), \beta_t \cdot \frac{1 - \bar{\alpha}_{t-1}}{1 - \bar{\alpha}_t} \mathbf{I})

预测的反向生成过程

p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) = \mathcal{N}\left(\mathbf{x}_{t-1}; \mu_\theta(\mathbf{x}_t, t), \Sigma_\theta(\mathbf{x}_t, t)\right)

再谈优化目标

考虑式 (11)，对于 DDPM，现在可将其扩展为链式表达的形式，写成

\log P_{\theta}(x) \geq \mathbb{E}_{q_{\phi}(x_{1:T}|x_0)} \left[ \log \frac{P_{\theta}(x_{0:T})}{q_{\phi}(x_{1:T}|x_0)} \right] \tag{28}

改写成一个负对数似然，可以使用 Variational Lower Bound 优化，得到的结果是相同的。令

L_{\text{VLB}} = \mathbb{E}_{q_{\phi}(\mathbf{x}_{1:T}|\mathbf{x}_0)} \left[ \log \frac{q_{\phi}(\mathbf{x}_{1:T}|\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0:T})} \right] \tag{29}

可以进一步将式 (29) 展开成几个 KL 散度和熵项的组合 (见附录)

L_{\text{VLB}} = \mathbb{E}_{q} \left[ D_{\mathrm{KL}}\left(q(\mathbf{x}_{T}|\mathbf{x}_{0}) \parallel p(\mathbf{x}_{T})\right) + \sum_{t>1}D_{\mathrm{KL}}\left(q(\mathbf{x}_{t-1}|\mathbf{x}_{t},\mathbf{x}_{0}) \parallel p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_{t})\right) - \log p_{\theta}(\mathbf{x}_{0}|\mathbf{x}_{1}) \tag{30} \right]

分别标记 $L_{VLB}$ 中的每个分量，将式 (30) 写成

\begin{aligned} L_{\text{VLB}} &= L_T + L_{T-1} + \cdots + L_0 \\ \text{where } L_T &= D_{\text{KL}}\left(q(\mathbf{x}_T|\mathbf{x}_0) \parallel p_\theta(\mathbf{x}_T)\right) \\ L_t &= D_{\text{KL}}\left(q(\mathbf{x}_t|\mathbf{x}_{t+1},\mathbf{x}_0) \parallel p_\theta(\mathbf{x}_t|\mathbf{x}_{t+1})\right), \quad 1 \leq t \leq T - 1 \\ L_0 &= -\log p_\theta(\mathbf{x}_0|\mathbf{x}_1) \tag{31} \end{aligned}

式 (31) 形式的 $L_{VLB}$ 中， $L_T$ 为常数项， $L_0$ 为重建项，训练过程中通常可忽略。最终优化目标由 $L_t$ 决定，观察 $L_t$ ，由 KL 散度含义知，是要让 $q$ 与 $p_{\theta}$ 尽量接近。这等价于 $\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) \to \mu_{\theta}(\mathbf{x}_t, t), \tilde{\sigma}_t \to \Sigma_{\theta}(\mathbf{x}_t, t)$ 。注意到 $\tilde{\sigma}_t$ 只由 $\alpha$ 决定，在 DDPM 中，为了简化过程并保证训练稳定性，直接将 $\Sigma_{\theta}$ 固定为 $\tilde{\sigma}$ 。此时，只需 $\tilde{\mu}(\mathbf{x}_t, \mathbf{x}_0) \to \mu_{\theta}(\mathbf{x}_t, t)$ ，令

\mu_{\theta}(\mathbf{x}_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \varepsilon_{\theta}(\mathbf{x}_t, t)\right) \tag{32}

对比式 (26.1) (32)，现在优化目标转化为 $\varepsilon_{\theta}(\mathbf{x}_t, t) \to \varepsilon_t$ ，使用 MSE 描述

L_{\text{simple}}(\theta) := \mathbb{E}_{t,\mathbf{x}_0,\varepsilon} \left[ \| \varepsilon_t - \varepsilon_\theta(\mathbf{x}_t, t) \|^2 \right] \tag{33}

训练和推理

训练过程的重参数化采样由式 (16.5) 给出。实际训练过程中，为每个训练样本 $\mathbf{x}_0 \sim q(\mathbf{x}_0)$ 选择一个随机时间步 $t$ ，一步加噪后使用式 (33) 计算 Loss 并梯度下降。

推理过程。由式 (26) (27) (32)，对 $p_{\theta}(\mathbf{x}_{t-1}|\mathbf{x}_t)$ 进行重参数化采样

\mathbf{x}_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( \mathbf{x}_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}_t}} \varepsilon_{\theta}(\mathbf{x}_t, t)\right) + \sigma_t\varepsilon \quad (t>1)\tag{34}

注意 $\sigma_t\varepsilon$ 项，这一项使用 $\varepsilon \sim \mathcal{N}(0, I)$ 对方差进行重参数化，与 $\varepsilon_{\theta}$ 含义不同。在 $\mathbf{x}_1 \rightarrow \mathbf{x}_0$ 则直接输出 $\mu_{\theta}(\mathbf{x}_1, 1)$ ，不添加这一噪声项。

$\sigma_t\varepsilon$ 稍微起到了正则项的作用，可以从结果上近似认为是一种风格损失 $\mathcal{L}_{style}$ ，也可以认为它补强了高频。去噪过程中不加这一项，则重建出的 $\hat{\mathbf{x}}_0$ 是过于平滑、缺乏纹理的色块。

伪代码

Summary

断断续续数日，终于是整理完了 DDPM 公式，下一步辅以代码强化理解。虽如此，还是有一些基础知识，如流匹配等需要补充。

References

Diffusion 入门

DDPM 入门

前置

高斯混合模型

KL 散度

重参数

优化目标

Lower Bound

DDPM

Overview

前向扩散过程

噪声采样

一步加噪

反向生成过程

再谈优化目标

训练和推理

伪代码

Summary

References

DDPM

DDIM

DDNM

附录

$L_{VLB}$ 展开

DDPM 入门

前置

高斯混合模型

KL 散度

重参数

优化目标

Lower Bound

DDPM

Overview

前向扩散过程

噪声采样

一步加噪

反向生成过程

再谈优化目标

训练和推理

伪代码

Summary

References

DDPM

DDIM

DDNM

附录

LVLBL_{VLB}LVLB​ 展开

$L_{VLB}$ 展开