LCM：大大加快生成高质量图像的新方法

本文介绍: 得益于一种名为潜在一致性模型（LCM）的新技术，文本转换成图像的AI即将迎来重大飞跃。潜在扩散模型（LDM）等传统方法在使用文本提示生成详细、创造性的图像方面令人印象深刻，然而它们的致命弱点是速度慢。使用LDM生成单单一个图像可能需要数百个步骤，这对于许多实际应用来说实在太慢了。

1、高效训练LCM

得益于一种名为潜在一致性模型（LCM）的新技术，文本转换成图像的AI即将迎来重大飞跃。潜在扩散模型（LDM）等传统方法在使用文本提示生成详细、创造性的图像方面令人印象深刻，然而它们的致命弱点是速度慢。使用LDM生成单单一个图像可能需要数百个步骤，这对于许多实际应用来说实在太慢了。

LCM通过大幅减少生成图像所需的步骤数量来改变游戏规则。LDM需要数百步才能费劲地生成图像，LCM只需1到4步就能获得质量相似的结果。这种效率是通过将预训练的LDM提炼成更精简的形式来实现的，所需的算力和时间大大减少。我们将剖析一篇介绍LDM模型的近期论文，看看它是如何工作的。

本文还介绍了一种名为LCM-LoRA的创新，这是一种通用的Stable-Di ff us ion加速模块。该模块可以插入到各种Stable–Di ff us ion 微调模型，无需任何额外的训练。它是一种普遍适用的工具，可以加速各种图像生成任务，使其成为利用AI创建图像的潜在利器。我们还将剖析论文的这个部分。

1、高效训练LCM

神经网络领域的一大挑战是需要绝对庞大的算力，尤其在训练它们以解决复杂方程时。这篇论文背后的团队用一种名为提炼的巧妙方法正面解决了这个问题。

研究团队是这么做的：他们先使用一个文本与图像配对的数据集训练一个标准的潜在扩散模型（LDM）。一旦这个LDM启动并运行起来，他们把它用作一种导师，以生成新的训练数据。这些新数据随后被用于训练潜在一致性模型（LCM）)。这里最吸引人的部分是LCM学会从LDM的能力中学习，不需要使用庞大数据集从头开始训练。

真正重要的是这个过程的效率。研究人员仅使用单个GPU就在大约32小时内完成了高质量LCM的训练。这很重要，因为它比以前的方法快得多、实用得多。这意味着现在更多的人和项目都可以创建这种先进的模型，而不是只有享有超级计算资源的人才能创建。

图1、LCM-LoRA概述

通过将LoRA引入到LCM的提炼过程中，我们显著降低了提炼的内存开销，这使得我们可以用有限的资源训练更庞大的模型，比如SDXL和SSD-1B。更重要的是，通过LCM-LoRA训练获得的LoRA参数（“加速向量”）可以直接与通过针对特定样式的数据集进行微调获得的其他LoRA参数（“样式向量”）结合起来。无需任何训练，由加速向量和样式向量的线性组合获得的模型获得了以最少的采样步骤生成特定绘画样式的图像这种能力。

2、结果

该研究展示了基于潜在一致性模型（LCM）利用AI生成图像方面的重大进展。LCM擅长仅用四个步骤就能创建高质量的512x512图像，与潜在扩散模型（LDM）等传统模型所需的数百个步骤相比有了显著改进。这些图像拥有清晰的细节和逼真的纹理，这个优点在下面的例子中尤为明显。

图2、论文声称：“使用从不同的预训练扩散模型中提取的潜在一致性模型生成的图像。我们使用LCM-LoRA-SD-V1.5生成512×512分辨率的图像，使用LCM-LoRA-SDXL和LCM-LoRA-SSD-1B生成1024×1024分辨率的图像。”

这些模型不仅可以轻松处理较小的图像，还擅长生成更庞大的1024x1024图像。它们展示了一种扩展到比以前大得多的神经网络模型的能力，展示了其适应能力。论文中的示例（比如LCM-LoRA-SD-V1.5和LCM-LoRA-SSD-1B版本的示例）阐明了该模型在各种数据集和实际场景中的广泛适用性。

3、局限性

LCM的当前版本存在几处局限性。最重要的是两个阶段的训练过程：首先训练LDM，然后用它来训练LCM。在未来的研究中，可能会探索一种更直接的LDM训练方法，因而可能不需要LDM。论文主要讨论无条件图像生成，条件生成任务（比如文本到图像的合成）可能需要做更多的工作。

4、主要的启示

潜在一致性模型在快速生成高质量的图像方面迈出了一大步。这些模型只需1到4步就能生成与较慢的LDM相媲美的结果，这可能会彻底改变文本到图像模型的实际应用。虽然目前存在一些局限性，特别是在训练过程和生成任务的范围方面，但LCM标志着在基于神经网络的实用图像生成方面取得了重大进展。提供的示例强调了这些模型具有的潜力。

5、LCM-LoRA作为通用加速模块

正如我在引言中提到，该论文分为两部分。论文的第二部分讨论了LCM-LoRA，这种技术允许使用少得多的内存对预训练模型进行微调，使其更高效。

这里的关键创新是将LoRA参数集成到LCM中，从而生成结合两者优点的混合模型。这种集成对于创建特定样式的图像或响应特定任务特别有用。如果选择和组合不同的LoRA参数集，每个参数集又都针对独特的样式进行微调，研究人员创建了一个多功能模型，可以用最少的步骤生成图像，不需要额外的训练。

他们在研究中通过将针对特定绘画样式进行微调的LoRA参数与LCM-LoRA参数相结合的例子来证明这一点。这种组合允许在不同的采样步骤（比如2步、4步、8步、16步和32步）创建样式迥异的1024 × 1024分辨率图像。它们表明，这些组合的参数无需进一步训练即可生成高质量图像，强调了这种模型的效率和通用性。