AIGC系列之：DDPM原理解读（简单易懂版）

本文介绍: 在Encode r 部分中，UNe t 模型会逐步压缩图片的大小；在De code r 部分中，则会逐步还原图片的大小。同时在Encoder和De oc der间，还会使用“残差连接”，确保De coder部分在推理和还原图片信息时，不会丢失掉之前步骤的信息。Stable Diffus ion主要包含三个模块：VAE模块：Var i a t ion al Aut o Encoder, ELBO loss, KL loss, GAN,

DDPM(De no i s in g Diffus ion Pro b alist ic Mo de ls)的目标是学习训练数据的分布，产出尽可能符合训练数据分布的真实图片。训练过程分为两步：

Diffus ion Pro ce ss (又被称为正向扩散)

如下图，正向扩散的过程进行了1000步的加噪，每一步 time _step都往图片上加入一个高斯分布的噪声，直到图片变为一个纯高斯分布的噪声。完成Dif fus ion Pro ce s s 过程。

Deno i se Pro ce ss（又被称为逆向去噪）

如下图，逆向去噪的过程从第T个times tep开始，模型的输入为加噪后的图像 x t与当前 times tep。输入 times tep的目的是由于模型每一步去噪用的都是同一个模型，所以需要告诉模型进行的是哪一步去噪。因此，timestep类似于transformer中的位置编码，将一个常数转换为一个向量再和输入的图片进行相加。模型中蕴含一个噪声预测器（UNet），它会根据当前的输入预测出噪声，然后，将当前图片减去预测出来的噪声，就可以得到去噪后的图片。重复这个过程，直到还原出原始图片x0为止。

DDPM中的Unet 模块

Unet 模块 介绍

在Encoder部分中，UNet模型会逐步压缩图片的大小；在Decoder部分中，则会逐步还原图片的大小。同时在Enco der和Deoc der间，还会使用“残差连接”，确保Dec o der部分在推理和还原图片信息时，不会丢失掉之前步骤的信息。Unet 模块的输入为加噪的图像和当前的TimeStep, 示意图如下：

Unet 流程示意图

如下图，左半边为UNet的Enco der部分，右半边为UNet的Deo cder部分，最下面为MiddleBlock。输入为一张32*32*3大小的图片，在Enco der部分的第二行，输入是一个16*16*64的图片，它是由上一行最右侧32*32*64的图片压缩而来(DownSample)。对于这张16*16*64大小的图片，在引入 time_embed ding后，让它们一起过一层DownBlock，得到大小为16*16*128的图片。再引入 time_em bed ding，再过一次DownBlock，得到大小同样为16*16*128的图片。对该图片做DowSample，就可以得到第三层的输入，也就是大小为8*8*128的图片。由此不难知道，同层间只做channel上的变化，不同层间做图片的压缩处理。

DownBlock和UpBlock

这个模块非常重要，已知Unet模块的输入为图像和timestep,那么就需要将timestep转换为一个向量并和图像相加，才外还需要用Attention 机制。那么这两个 tr ic k是怎么发挥作用的呢？如下图所示，TimeEm bedding层采用和Transformer一致的三角函数位置编码，将常数转变为向量。Attention层则是沿着channel 维度将图片拆分为 token，做完attention后再重新组装成图片（注意Attention层不是必须的，是可选的）。虚线部分即为“残差连接”（Res id ual Connect ion），而残差连接之上引入的虚线框Conv的意思是，如果in _c = out _c，则对in _c做一次卷积，使得其通道数等于out_c后，再相加；否则将直接相加。

MiddleBlock

和DownBlock与UpBlock过程类似，接在下采样和上采样的中间。

文生图模型的一般公式

训练完成的DDPM模型可以产生逼真的图片，然后就可以进一步用文字信息去引导它产生符合我们意图的模型了。通常来说，文生图模型遵循以下公式

Text Encoder: 一个能对输入文字做语义解析的Encoder，一般是一个预训练好的模型。在实际应用中，CLIP模型由于在训练过程中采用了图像和文字的对比学习，使得学得的文字特征对图像更加具有鲁棒性，因此它的text encoder常被直接用来做文生图模型的text encoder（比如DALLE2）
Generation Mod el：输入为文字 token和图片噪声，输出为一个关于图片的压缩产物（latent sp ace）。这里通常指的就是扩散模型，采用文字作为引导（guidance）的扩散模型原理，如DDPM、DDIM等扩散模型。
Decoder： 用图片的中间产物作为输入，产出最终的图片。Decoder的选择也有很多，同样也能用一个扩散模型作为Dec oder。