ϵθ(zt,c,t,E(Ireg)).(4)
然后,将基于潜在的损失
D
l
a
t
e
n
t
mathcal{D}_{latent}
Dlatent定义为潜在图像引导
E
(
I
r
e
g
)
mathcal{E}(I_{reg})
E(Ireg)与估计的干净潜在变量
z
~
0
tilde z_0
z~0之间的
L
2
mathcal{L}_2
L2 距离:
D
latent
(
x
,
I
reg
)
=
L
(
z
~
0
,
E
(
I
reg
)
)
=
∑
j
1
C
j
H
j
W
j
∥
z
~
0
−
E
(
I
reg
)
)
∥
2
2
(5)
left.mathcal{D}_{text {latent }}left(x, I_{text {reg }}right)=mathcal{L}left(tilde{z}_{0}, mathcal{E}left(I_{text {reg }}right)right)=sum_{j} frac{1}{C_{j} H_{j} W_{j}} | tilde{z}_{0}-mathcal{E}left(I_{text {reg }}right)right) |_{2}^{2}tag{5}
Dlatent (x,Ireg )=L(z~0,E(Ireg ))=j∑CjHjWj1∥z~0−E(Ireg ))∥22(5)
上述引导可以迭代地强制潜在特征之间的空间对齐和颜色一致性,并引导生成的潜在保留参考潜在的内容。因此,可以控制从参考图像
I
r
e
g
I_{reg}
Ireg中保留多少信息(如结构、布局和颜色),从而实现从生成的输出到更平滑的结果的过渡。我们的潜在图像引导的整个算法在算法1中进行了说明。
4. Experiments
4.1 数据集、实现、度量
数据集。我们在ImageNet[11]数据集上以512 × 512分辨率训练DiffBIR。对于BFR,我们使用FFHQ[25]数据集,并将其大小调整为512 × 512。为了合成LQ图像,我们在训练过程中利用提出的退化pipeline对HQ图像进行处理(详见附录A)。对于BSR,我们使用RealSRSet[3]数据集在现实环境中进行比较。为了在现实场景中进行更彻底的比较,我们从互联网上收集了47张图像,记为Real47。它包含了各种场景的一般图像,如自然户外景观,老照片,建筑,人物从肖像到密集的人群,植物,动物等。对于BFR任务,我们在合成数据集CelebA-Test[39]和三个真实数据集:LFW-Test[54]、CelebChild-Test[54]和WIDER-Test[68]上评估了我们的方法。特别是,CelebA-Test包含从CelebA-HQ数据集中选择的3,000张图像,其中LQ图像是在与我们的训练设置相同的退化范围下合成的。
实现。恢复模块采用8个残差Swin Transformer block (RSTB),每个RSTB包含6个Swin Transformer Layers (STL)。head数设置为6,窗口大小设置为8。我们训练恢复模块,批量大小为96,迭代150k。我们使用Stable Diffusion 2.1-base 3作为生成先验,并对扩散模型进行了微调,迭代次数为25k,批大小为192。我们使用Adam[28]优化器,将学习率设置为10−4。训练过程在512 × 512分辨率下使用8个NVIDIA A100 GPU进行。对于推理,我们采用间隔DDPM采样[43],时间步长为50。我们的DiffBIR能够处理大于512 × 512的任意大小的图像。对于边长< 512的图像,我们首先将它们的短边放大到512,然后将它们调整回来。
度量。对于基于真实值的评价,我们采用传统的指标:PSNR、SSIM和LPIPS[67]。为了更好地评估BIR任务的真实性,我们还包括了几个无参考图像质量评估(IQA)指标:MANIQA4[60]和NIQE。对于BFR,我们评估了identity preservation-IDS[68],并采用了广泛使用的感知度量FID[20]。我们还部署了一项用户研究,以进行更彻底的比较。
4.2 与最先进方法的比较
对于BSR,我们将DiffBIR与最先进的BSR方法进行了比较:Real-ESRGAN+[55]、BSRGAN[64]、SwinIR-GAN[36]和FeMaSR[6]。最近最先进的ZIR方法(DDNM[57]和GDP[16])也包括在内。对于BFR任务,我们比较了最新的最先进的方法:DMDNet[35]、GFP-GAN[54]、GPEN[61]、GCFSR[19]、VQFR[18]、CodeFormer[68]、RestoreFormer[59]。
真实数据集上的BSR
我们在表1中提供了对真实数据集的定量比较。可以观察到,我们的DiffBIR在广泛使用的RealSRSet[24]和我们收集的Real47上都在MANIQA中获得了最好的分数。而BSRGAN和Real-ESRGAN+在两个数据集上都可以在MANIQA中获得前3名的结果。
目视比较结果如图3所示。可以看出,DiffBIR能够更自然地还原文本信息,而其他方法往往会扭曲字符或产生模糊的输出。另一方面,我们的DiffBIR也可以为自然图像生成逼真的纹理细节,而其他方法会产生过于光滑的结果。
为了进一步将DiffBIR与其他最先进的方法进行比较,我们对收集的Real47数据集进行了用户研究。本用户研究比较了DiffBIR、SwinIR-GAN、BSRGAN和RealESRGAN+。对于每张图像,用户被要求对四种方法的结果进行排序,并按升序为不同的方法分配1-4点。更准确地说,结果越好,得分越高。在详细的指导下,招募了31名用户进行这项用户研究。各方法得到的分数分布如图4所示。可以看出,DiffBIR的中位数得分最高,其上四分位数超过3。这表明用户倾向于将DiffBIR的结果排在首位。用户研究结果再次证明DiffBIR的视觉结果优于其他方法,这与它在MANIQA上的最高分一致。
原文地址:https://blog.csdn.net/qq_42208244/article/details/134783820
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_62067.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!