本文介绍: 我们提出了DiffBIR,它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采用两阶段pipeline。在第一阶段,我们在多种退化中预训练恢复模块,以提高现实场景中的泛化能力。第二阶段利用潜在扩散模型的生成能力,实现真实的图像恢复。具体来说,我们引入了一个injective modulation 子网络——LAControlNet进行微调,而预训练的Stable Diffusion是为了保持其生成能力。

ϵθ(zt,c,t,E(Ireg)).(4)

然后,将基于潜在的损失

D

l

a

t

e

n

t

mathcal{D}_{latent}

Dlatent定义为潜在图像引导

E

(

I

r

e

g

)

mathcal{E}(I_{reg})

E(Ireg)与估计的干净潜在变量

z

~

0

tilde z_0

z~0之间的

L

2

mathcal{L}_2

L2 距离:

D

latent 

(

x

,

I

reg 

)

=

L

(

z

~

0

,

E

(

I

reg 

)

)

=

j

1

C

j

H

j

W

j

z

~

0

E

(

I

reg 

)

)

2

2

(5)

left.mathcal{D}_{text {latent }}left(x, I_{text {reg }}right)=mathcal{L}left(tilde{z}_{0}, mathcal{E}left(I_{text {reg }}right)right)=sum_{j} frac{1}{C_{j} H_{j} W_{j}} | tilde{z}_{0}-mathcal{E}left(I_{text {reg }}right)right) |_{2}^{2}tag{5}

Dlatent (x,Ireg )=L(z~0,E(Ireg ))=jCjHjWj1z~0E(Ireg ))22(5)

上述引导可以迭代地强制潜在特征之间的空间对齐和颜色一致性,并引导生成的潜在保留参考潜在的内容。因此,可以控制从参考图像

I

r

e

g

I_{reg}

Ireg中保留多少信息(如结构、布局和颜色),从而实现从生成的输出到更平滑的结果的过渡。我们的潜在图像引导的整个算法在算法1中进行了说明。

在这里插入图片描述

4. Experiments

4.1 数据集、实现、度量

数据集。我们在ImageNet[11]数据集上以512 × 512分辨率训练DiffBIR。对于BFR,我们使用FFHQ[25]数据集,并将其大小调整为512 × 512。为了合成LQ图像,我们在训练过程中利用提出的退化pipeline对HQ图像进行处理(详见附录A)。对于BSR,我们使用RealSRSet[3]数据集在现实环境中进行比较。为了在现实场景中进行更彻底的比较,我们从互联网上收集了47张图像,记为Real47。它包含了各种场景的一般图像,如自然户外景观,老照片,建筑,人物从肖像到密集的人群,植物,动物等。对于BFR任务,我们在合成数据集CelebA-Test[39]和三个真实数据集:LFW-Test[54]、CelebChild-Test[54]和WIDER-Test[68]上评估了我们的方法。特别是,CelebA-Test包含从CelebA-HQ数据集中选择的3,000张图像,其中LQ图像是在与我们的训练设置相同的退化范围下合成的。

实现。恢复模块采用8个残差Swin Transformer block (RSTB),每个RSTB包含6个Swin Transformer Layers (STL)。head数设置为6,窗口大小设置为8。我们训练恢复模块,批量大小为96,迭代150k。我们使用Stable Diffusion 2.1-base 3作为生成先验,并对扩散模型进行了微调,迭代次数为25k,批大小为192。我们使用Adam[28]优化器,将学习率设置为10−4。训练过程在512 × 512分辨率下使用8个NVIDIA A100 GPU进行。对于推理,我们采用间隔DDPM采样[43],时间步长为50。我们的DiffBIR能够处理大于512 × 512的任意大小的图像。对于边长< 512的图像,我们首先将它们的短边放大到512,然后将它们调整回来。

度量。对于基于真实值的评价,我们采用传统的指标:PSNR、SSIM和LPIPS[67]。为了更好地评估BIR任务的真实性,我们还包括了几个无参考图像质量评估(IQA)指标:MANIQA4[60]和NIQE。对于BFR,我们评估了identity preservation-IDS[68],并采用了广泛使用的感知度量FID[20]。我们还部署了一项用户研究,以进行更彻底的比较。

4.2 与最先进方法的比较

对于BSR,我们将DiffBIR与最先进的BSR方法进行了比较:Real-ESRGAN+[55]、BSRGAN[64]、SwinIR-GAN[36]和FeMaSR[6]。最近最先进的ZIR方法(DDNM[57]和GDP[16])也包括在内。对于BFR任务,我们比较了最新的最先进的方法:DMDNet[35]、GFP-GAN[54]、GPEN[61]、GCFSR[19]、VQFR[18]、CodeFormer[68]、RestoreFormer[59]。

真实数据集上的BSR

我们在表1中提供了对真实数据集的定量比较。可以观察到,我们的DiffBIR在广泛使用的RealSRSet[24]和我们收集的Real47上都在MANIQA中获得了最好的分数。而BSRGAN和Real-ESRGAN+在两个数据集上都可以在MANIQA中获得前3名的结果。

在这里插入图片描述

目视比较结果如图3所示。可以看出,DiffBIR能够更自然地还原文本信息,而其他方法往往会扭曲字符或产生模糊的输出。另一方面,我们的DiffBIR也可以为自然图像生成逼真的纹理细节,而其他方法会产生过于光滑的结果。
在这里插入图片描述

为了进一步将DiffBIR与其他最先进的方法进行比较,我们对收集的Real47数据集进行了用户研究。本用户研究比较了DiffBIR、SwinIR-GAN、BSRGAN和RealESRGAN+。对于每张图像,用户被要求对四种方法的结果进行排序,并按升序为不同的方法分配1-4点。更准确地说,结果越好,得分越高。在详细的指导下,招募了31名用户进行这项用户研究。各方法得到的分数分布如图4所示。可以看出,DiffBIR的中位数得分最高,其上四分位数超过3。这表明用户倾向于将DiffBIR的结果排在首位。用户研究结果再次证明DiffBIR的视觉结果优于其他方法,这与它在MANIQA上的最高分一致。
在这里插入图片描述

原文地址:https://blog.csdn.net/qq_42208244/article/details/134783820

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_62067.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注