DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

首页
互联网
正文

本文介绍: 我们提出了DiffBIR，它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采用两阶段pipeline。在第一阶段，我们在多种退化中预训练恢复模块，以提高现实场景中的泛化能力。第二阶段利用潜在扩散模型的生成能力，实现真实的图像恢复。具体来说，我们引入了一个injective modulation 子网络——LAControlNet进行微调，而预训练的Stable Diffusion是为了保持其生成能力。

ϵθ(zt,c,t,E(Ireg)).(4)

然后，将基于潜在的损失

mathcal{D}_{latent}

$D_{l a t e n t}$ 定义为潜在图像引导

(

)

mathcal{E}(I_{reg})

$E (I_{re g})$ 与估计的干净潜在变量

tilde z_0

$\tilde{z}_{0}$ 之间的

mathcal{L}_2

$L_{2}$ 距离：

latent

(

reg

)

(

reg

)

∑

∥

−

(

reg

)

∥

(5)

left.mathcal{D}_{text {latent }}left(x, I_{text {reg }}right)=mathcal{L}left(tilde{z}_{0}, mathcal{E}left(I_{text {reg }}right)right)=sum_{j} frac{1}{C_{j} H_{j} W_{j}} | tilde{z}_{0}-mathcal{E}left(I_{text {reg }}right)right) |_{2}^{2}tag{5}

$D_{latent} (x, I_{reg}) = L (\tilde{z}_{0}, E (I_{reg})) = j \sum \frac{1}{C _{j} H _{j} W _{j}} ∥ \tilde{z}_{0} - E (I_{reg})) ∥_{2}^{2} (5)$

上述引导可以迭代地强制潜在特征之间的空间对齐和颜色一致性，并引导生成的潜在保留参考潜在的内容。因此，可以控制从参考图像

I_{reg}

$I_{re g}$ 中保留多少信息(如结构、布局和颜色)，从而实现从生成的输出到更平滑的结果的过渡。我们的潜在图像引导的整个算法在算法1中进行了说明。

在这里插入图片描述

4. Experiments

4.1 数据集、实现、度量

数据集。我们在ImageNet[11]数据集上以512 × 512分辨率训练DiffBIR。对于BFR，我们使用FFHQ[25]数据集，并将其大小调整为512 × 512。为了合成LQ图像，我们在训练过程中利用提出的退化pipeline对HQ图像进行处理(详见附录A)。对于BSR，我们使用RealSRSet[3]数据集在现实环境中进行比较。为了在现实场景中进行更彻底的比较，我们从互联网上收集了47张图像，记为Real47。它包含了各种场景的一般图像，如自然户外景观，老照片，建筑，人物从肖像到密集的人群，植物，动物等。对于BFR任务，我们在合成数据集CelebA-Test[39]和三个真实数据集：LFW-Test[54]、CelebChild-Test[54]和WIDER-Test[68]上评估了我们的方法。特别是，CelebA-Test包含从CelebA-HQ数据集中选择的3,000张图像，其中LQ图像是在与我们的训练设置相同的退化范围下合成的。

实现。恢复模块采用8个残差Swin Transformer block (RSTB)，每个RSTB包含6个Swin Transformer Layers (STL)。head数设置为6，窗口大小设置为8。我们训练恢复模块，批量大小为96，迭代150k。我们使用Stable Diffusion 2.1-base 3作为生成先验，并对扩散模型进行了微调，迭代次数为25k，批大小为192。我们使用Adam[28]优化器，将学习率设置为10−4。训练过程在512 × 512分辨率下使用8个NVIDIA A100 GPU进行。对于推理，我们采用间隔DDPM采样[43]，时间步长为50。我们的DiffBIR能够处理大于512 × 512的任意大小的图像。对于边长< 512的图像，我们首先将它们的短边放大到512，然后将它们调整回来。

度量。对于基于真实值的评价，我们采用传统的指标：PSNR、SSIM和LPIPS[67]。为了更好地评估BIR任务的真实性，我们还包括了几个无参考图像质量评估(IQA)指标：MANIQA4[60]和NIQE。对于BFR，我们评估了identity preservation-IDS[68]，并采用了广泛使用的感知度量FID[20]。我们还部署了一项用户研究，以进行更彻底的比较。

4.2 与最先进方法的比较

对于BSR，我们将DiffBIR与最先进的BSR方法进行了比较：Real-ESRGAN+[55]、BSRGAN[64]、SwinIR-GAN[36]和FeMaSR[6]。最近最先进的ZIR方法(DDNM[57]和GDP[16])也包括在内。对于BFR任务，我们比较了最新的最先进的方法：DMDNet[35]、GFP-GAN[54]、GPEN[61]、GCFSR[19]、VQFR[18]、CodeFormer[68]、RestoreFormer[59]。

真实数据集上的BSR

我们在表1中提供了对真实数据集的定量比较。可以观察到，我们的DiffBIR在广泛使用的RealSRSet[24]和我们收集的Real47上都在MANIQA中获得了最好的分数。而BSRGAN和Real-ESRGAN+在两个数据集上都可以在MANIQA中获得前3名的结果。

在这里插入图片描述

目视比较结果如图3所示。可以看出，DiffBIR能够更自然地还原文本信息，而其他方法往往会扭曲字符或产生模糊的输出。另一方面，我们的DiffBIR也可以为自然图像生成逼真的纹理细节，而其他方法会产生过于光滑的结果。
在这里插入图片描述

为了进一步将DiffBIR与其他最先进的方法进行比较，我们对收集的Real47数据集进行了用户研究。本用户研究比较了DiffBIR、SwinIR-GAN、BSRGAN和RealESRGAN+。对于每张图像，用户被要求对四种方法的结果进行排序，并按升序为不同的方法分配1-4点。更准确地说，结果越好，得分越高。在详细的指导下，招募了31名用户进行这项用户研究。各方法得到的分数分布如图4所示。可以看出，DiffBIR的中位数得分最高，其上四分位数超过3。这表明用户倾向于将DiffBIR的结果排在首位。用户研究结果再次证明DiffBIR的视觉结果优于其他方法，这与它在MANIQA上的最高分一致。
在这里插入图片描述