论文阅读-Null-text Inversion for Editing Real Images using Guided Diffusion Models

互联网 12 月前 0 49

本文介绍: 利用DDIM In version做图像重建或图像编辑任务时，直接做有条件的DDIM重建会导致误差累积，从而导致重建结果逐渐偏离原图像；现有的图像编辑方法大多需要对模型进行微调，或对模型权重、内部结构等进行优化，操作起来比较复杂。本文方法：null–text inversion首先对输入图像提取 caption，然后在每个采样时间步t，都利用以下损失函数对null–text embedding进行优化，最终得到每个采样时间节点 t所对应的优化后的null–text embedding，并实现对图像的重建和编辑

一、论文 信息

作者团队：

论文链接：https://a rx i v.org/pdf/2211.09794.pdf

代码链接：https://github.com/google/prompt–t o–prompt

二、Con di t ion al Di ff us ion（class i f ie r–free gui da nc e)

Clas si f ie r–free gui da nc e方法训练：

对于有条件的训练集（如图文对数据集），以某个概率 p将其中的某些条件置为空，然后进行训练。

实际生成：

三、DDIM In version

DDPM生成图像的反向去噪过程（由Xt去预测Xt-1）：

当随机噪声的系数=0，此时变为确定性采样过程，一旦初始的噪声XT确定了，样本的生成也就变为确定过程。

DDIM inversion：

DDIM的逆过程，即对于原图像进行加噪，最终得到一张噪声图。

将该噪声图作为采样起点进行去噪，最终又会生成原图像（即实现对原图像的重建过程）。这一整个过程常被用于图像编辑等任务。

四、Nu ll–text In version

动机

利用DDIM In v e rs ion做图像重建或图像编辑任务时，直接做有条件的DDIM重建会导致误差累积，从而导致重建结果逐渐偏离原图像；

现有的图像编辑方法大多需要对模型进行微调，或对模型权重、内部结构等进行优化，操作起来比较复杂。

本文方法：null–text inversion

首先对输入图像提取 caption，然后在每个采样时间步t，都利用以下损失函数对null–text embedding进行优化

约束损失：

最终得到每个采样时间节点t所对应的优化后的null–text embedding，并实现对图像的重建。

利用DDIM In v er si on得到的ZT和优化后的null-text embedding 序列，可以实现有条件的图像编辑。

实验结果

原文地址:https://blog.csdn.net/qq _43687860/ar ti cle/detail s/134805164

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_49236.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：su w n gjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

inversion null text

相关文章

表主键自动设置为 not null 必须

表主键自动设置为 not null 必须

互联网 10 月前 5

naiveui 上传图片遇到的坑 Upload

naiveui 上传图片遇到的坑 Upload

互联网 10 月前 2

css文本属性

css 10 月前 1

微信小程序（二十五）条件判断语句与结构隐藏

微信小程序（二十五）条件判断语句与结构隐藏

小程序 10 月前 5

DAIL-SQL：LLM在Text-to-SQL任务中的详细评估

DAIL-SQL：LLM在Text-to-SQL任务中的详细评估

互联网 10 月前 3

MySQL JSON NULL查询

MySQL JSON NULL查询

mysql 10 月前 13

JVM之GC垃圾回收

互联网 10 月前 3

行为型设计模式—中介者模式

互联网 10 月前 4

发表回复取消回复