前言
从头训练一个扩散模型的代价巨大,因为它需要大规模的数据和计算资源,并且通常需要对模型的架构和超参数进行仔细调整。相比之下,基于微调的方法在保留了预训练模型的通用性的同时,能够更加高效地适应不同的任务需求。这种方法不仅可以显著降低训练成本,同时还能够在更短的时间内实现模型的迭代和优化。
因此,通过在通用扩散模型的基础上进行微调,能够在计算效率和任务适应性之间找到平衡点,为各种特定的下游任务提供了一种灵活、可行的解决方案。这一研究方向的快速发展为在实际应用中更广泛地利用扩散模型提供了有力支持,同时为未来的深度生成模型研究开辟了新的方向。
1. PEFT
论文:Parameter-Efficient Transfer Learning for NLP
2019年,谷歌的研究人员首次提出了一种新的微调方式,即PEFT(Parameter-Efficient Transfer Learning for NLP),并在论文中详细介绍了这一方法,为PEFT研究开辟了新的方向。他们指出,在处理特定的下游任务时,进行完全微调(Full-Finetuning,即微调预训练模型中的所有参数)效率较低。另一方面,如果采用固定预训练模型的某些层,只微调接近下游任务的那几层参数,虽然效率提高,但很难获得令人满意的性能。PEFT方法旨在解决这一问题,实现在保持高效性的同时获得较好的模型性能。这一研究为微调方法的发展提供了新的思路和实践经验。
2. Prefix Tuning
论文:Prefix-Tuning: Optimizing Continuous Prompts for Generation
在2021年,斯坦福大学的研究人员在论文《Prefix-Tuning: Optimizing Continuous Prompts for Generation》中提出了一种新的微调方法,称之为Prefix Tuning。与Full-finetuning不同,该方法在进行训练之前不是更新所有参数,而是在输入token之前构造一段与任务相关的虚拟tokens作为Prefix。在训练过程中,仅更新Prefix部分的参数,而Transformer中的其他部分参数则保持固定。这一方法的思想与构造Prompt类似,但是与Prompt不同的是,Prefix是一种可以学习的“隐式”提示,相对于显式构造的Prompt具有更大的灵活性。这种新的微调方法为生成模型提供了一种更为高效且可控的调整方式。