个人理解

思考

基本信息

摘要

背景

挑战

方法

结果

引言

  • 论文研究问题是什么?
    • 文本驱动图像编辑
  • 研究的动机和目的是什么?
    • 文本驱动图像生成大模型的发展产生了文本驱动图像编辑的需求,如何尽量更改特定语义区域而尽量不影响其他区域由于文本的多义性,很难确定更改应该全局还是局部
    • 作者深入研究了交叉注意力机制对语义的影响,并通过其控制生成图像
  • 作者提到了哪些相关工作?

方法论

在这里插入图片描述
方法概述
在这里插入图片描述

  • 论文使用了什么方法或技术

  • 方法的创新点是什么?

    • 生成的图像的结构外观不仅取决于随机种子,还取决于像素与通过扩散过程嵌入之间的交互。通过修改交叉注意层中出现的像素到文本的交互,提供了Prompt-to-Prompt图像编辑功能
  • 方法的优势和潜在劣势是什么?

  • 实施步骤

    • 设DM (zt, P, t, s)为扩散过程单步t的计算输出噪声图像zt−1,注意图Mt(未使用省略)。用 DM (zt, P, t, s){M ←

      M

      ^

      hat{M}

      M^} 表示扩散步骤,我们用一个额外的给定映射

      M

      ^

      hat{M}

      M^覆盖注意力图 M,但保留来自提供的提示的值 V。还用

      M

      t

      M^*_t

      Mt表示使用编辑提示

      p

      p^*

      p生成的注意图。最后,我们将 Edit(

      M

      t

      M_t

      Mt,

      M

      t

      M^*_t

      Mt , t) 定义为一个通用的编辑函数,在生成过程中接收原始图像和编辑图像的第 t 个注意力图作为输入
      在这里插入图片描述

    • word swap

    • Adding a New Phrase在这里插入图片描述 在这里插入图片描述
      在这里插入图片描述

    • Attention Re–weighting
      在这里插入图片描述在这里插入图片描述

    • DDIM反演并执行P2P
      在这里插入图片描述
      但由于DDIM反演可能会产生和原图不一致的情况,使用直接从注意力图中提取的掩码恢复原始图像的未编辑区域。请注意,这里掩码是在没有用户指导的情况下生成的。
      在这里插入图片描述

结果

  • 实验结果显示了什么?
    文本到图像扩散模型中交叉注意力层的强大能力
  • 结果支持了哪些论点?

讨论

引用

如何引用本文:

@article{hertz2022prompt,
  title={Prompt-to-prompt image editing with cross attention control},
  author={Hertz, Amir and Mokady, Ron and Tenenbaum, Jay and Aberman, Kfir and Pritch, Yael and Cohen-Or, Daniel},
  booktitle={arXiv preprint arXiv:2208.01626},
  year={2022}
}

原文地址:https://blog.csdn.net/weixin_43357695/article/details/134663605

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_5051.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注