扩散模型微调方法/文献综述

本文介绍: 近年来，扩散模型近年来取得了迅速的发展。扩散模型被广泛应用于文本到图像生成、文本到视频生成、点云完成和生成等各种生成式任务上。然而，从头训练一个扩散模型往往涉及巨大的计算成本和时间投入，限制了其在实际应用中的广泛使用。为了克服这一挑战，研究者们开始关注如何在现有的通用扩散模型基础上，通过微调的方式，将模型专门适应特定的下游任务。微调的思想源于对预训练模型知识的有效重用，通过在具体任务上进行有针对性的调整，以适应不同的应用场景。

从头训练一个扩散模型的代价巨大，因为它需要大规模的数据和计算资源，并且通常需要对模型的架构和超参数进行仔细调整。相比之下，基于微调的方法在保留了预训练模型的通用性的同时，能够更加高效地适应不同的任务需求。这种方法不仅可以显著降低训练成本，同时还能够在更短的时间内实现模型的迭代和优化。

因此，通过在通用扩散模型的基础上进行微调，能够在计算效率和任务适应性之间找到平衡点，为各种特定的下游任务提供了一种灵活、可行的解决方案。这一研究方向的快速发展为在实际应用中更广泛地利用扩散模型提供了有力支持，同时为未来的深度生成模型研究开辟了新的方向。

论文：Parameter-Efficient Transfer Learning for NLP

2019年，谷歌的研究人员首次提出了一种新的微调方式，即PEFT（Parameter-Efficient Transfer Learning for NLP），并在论文中详细介绍了这一方法，为PEFT研究开辟了新的方向。他们指出，在处理特定的下游任务时，进行完全微调（Full-Finetuning，即微调预训练模型中的所有参数）效率较低。另一方面，如果采用固定预训练模型的某些层，只微调接近下游任务的那几层参数，虽然效率提高，但很难获得令人满意的性能。PEFT方法旨在解决这一问题，实现在保持高效性的同时获得较好的模型性能。这一研究为微调方法的发展提供了新的思路和实践经验。
在这里插入图片描述

论文：Prefix-Tuning: Optimizing Continuous Prompts for Generation

在2021年，斯坦福大学的研究人员在论文《Prefix-Tuning: Optimizing Continuous Prompts for Generation》中提出了一种新的微调方法，称之为Prefix Tuning。与Full-finetuning不同，该方法在进行训练之前不是更新所有参数，而是在输入token之前构造一段与任务相关的虚拟tokens作为Prefix。在训练过程中，仅更新Prefix部分的参数，而Transformer中的其他部分参数则保持固定。这一方法的思想与构造Prompt类似，但是与Prompt不同的是，Prefix是一种可以学习的“隐式”提示，相对于显式构造的Prompt具有更大的灵活性。这种新的微调方法为生成模型提供了一种更为高效且可控的调整方式。
在这里插入图片描述

论文：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
论文：HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models