本博客是一篇最新论文的精读,论文为UC伯克利大学相关研究者新近(2023.11.27)在arxiv上上传的《Self-correcting LLM-controlled Diffusion Models》 。
摘要
随着扩散模型的出现, 文本到图像生成而取得了显著进步。尽管能够生成逼真的图像,但当前的文本到图像扩散模型仍然经常难以准确解释和遵循复杂的输入文本提示。与仅以最佳努力生成图像的现有模型相反,我们引入了自我校正语言模型控制扩散(SLD)。SLD是一个框架,它从输入提示中生成一个图像,评估其与提示的对齐程度,并对生成图像中的不准确之处进行自我校正。在语言模型控制器的驱动下,SLD将文本到图像生成转化为一个迭代封闭循环的过程,确保结果图像中的正确性。SLD不仅无需训练,而且还可以与诸如DALL-E 3之类的扩散模型无缝集成,从而进一步提升最先进扩散模型的性能。实验结果表明,我们的方法可以校正大多数不正确的生成,特别是在生成数值、属性绑定和空间关系方面。此外,通过简单地调整给语言模型的指令,SLD可以执行图像编辑任务,弥合文本到图像生成和图像编辑流程之间的差距。我们将公开我们的代码供未来研究和应用。
引言
文本到图像生成随着扩散模型的出现而取得了显著进步。然而,这些模型经常难以解释复杂的输入文本提示,特别是那些需要理解数值概念、空间关系和多个对象的属性绑定等技能的提示。如图1所示,尽管模型大小和训练数据有了惊人扩展,但这些挑战仍然存在于最先进的开源和专有扩散模型中。
为了克服这些局限性,研究者开展了多项研究和工程工作。例如,DALL-E 3等方法聚焦扩散训练过程,并在大规模上将高质量的说明文字合并到训练数据中。但是,这种方法不仅会产生巨大的成本,而且经常无法从复杂的用户提示中生成准确的图像,如图1所示。其他工作利用外部模型的力量,以便在实际图像生成之前的推理过程中更好地理解提示。例如, 参考文献[6,10]利用大型语言模型(LLM)将文本提示预处理为结构化的图像布局,从而确保初步设计与用户的指令一致。然而,这样的集成并没有解决下游扩散模型产生的不准确性,特别是在具有复杂场景的图像中,如多个对象、杂乱的布局或详细的属性。
图1. 现有的基于扩散的文本到图像生成器(例如,DALL-E 3 [18])通常难以精确生成与复杂输入提示正确对齐的图像,特别是对于需要精确数值和空间关系的图像。 我们的自校正 LLM 控制扩散 (SLD) 框架使这些扩散模型能够通过应用一组潜在空间操作(添加、删除、重新定位等)自动迭代地纠正错误,从而增强文本到图像的对齐 。
受人类画画和扩散模型生成图像的过程的启发,我们观察到他们的创作方式有一个关键的区别。假定一个人类艺术家被要求画一幅画,里面有两只猫。在整个绘画过程中,艺术家都会注意这一要求, 一定会确保画上确实有两只猫才认为工作完成。如果艺术家发现画上只有一只猫,他会添加另一只猫以满足提示的要求。这与当前的文本到图像扩散模型形成了鲜明的对比,后者以开环方式运行。这些模型通过预定的扩散步骤生成图像,并将结果输出给用户,而不考虑其与初始用户提示的对齐情况。不管扩大训练数据还是采用LLM预生成作为条件,这样的过程都缺乏一个健壮的机制来确保最终图像与用户的预期一致。
鉴于此,我们提出了自我校正大语言模型控制扩散(SLD)方法,它执行自我检查以自信地向用户保证提示和生成图像之间的对齐。**SLD采用了一种新颖的闭环方法,使扩散模型能够迭代地识别和纠正错误,有别于传统的单轮生成方法。**我们的SLD框架,如图2所示,包含两个主要组件:语言模型驱动的对象检测以及语言模型控制的评估和校正。