Prompt Tuning 和 Delta Tuning 针对预训练语言模型进行微调

本文介绍: Prompt Tuning 和 Delta Tuning 是两种针对预训练语言模型进行微调的方法

        Prompt Tuning 和 Delta Tuning 是两种针对预训练语言模型进行微调的方法，它们旨在提高微调的效率和减少所需的训练数据量。下面分别介绍这两种方法以及它们之间的区别。
        Prompt Tuning
        Prompt Tuning 是一种微调方法，它通过修改模型的输入（即提示）来引导模型生成期望的输出，而不是直接修改模型的参数。这种方法通常用于指令调整或任务调整，其中模型的输入被设计成包含有关要执行的任务的提示信息。
        在 Prompt Tuning 中，通常只有一小部分模型参数（例如，与提示相关的嵌入层）会被更新，而预训练模型的主干部分保持不变。这种方法可以减少过拟合的风险，并且由于需要调整的参数较少，因此可以在更少的数据上进行训练。
        Delta Tuning
        Delta Tuning（也称为 Adapter Tuning 或 Prefix Tuning）是一种微调方法，它通过在预训练模型的现有参数上添加一小部分可训练的参数（称为适配器或前缀）来适应新的任务。这些额外的参数通常很小，因此训练它们所需的计算资源较少。
        Delta Tuning 允许模型在不改变原始预训练参数的情况下适应新的任务，这意味着可以在保持模型泛化能力的同时，快速适应特定的任务或领域。这种方法特别适合于需要频繁切换任务或多任务学习的场景。
        区别
1. 参数更新方式：
– Prompt Tuning 更新的是输入提示的表示，而不是模型参数本身。
– Delta Tuning 在原始模型参数的基础上添加了额外的可训练参数。
2. 参数数量：
– Prompt Tuning 通常只调整与提示相关的少量参数。
– Delta Tuning 添加了额外的参数，但这些参数通常比整个模型参数集小得多。
3. 适用场景：
– Prompt Tuning 适用于需要通过修改输入来引导模型输出的场景。
– Delta Tuning 适用于需要模型快速适应新任务或多任务学习的场景。
4. 过拟合风险：
– Prompt Tuning 由于只调整少量参数，过拟合的风险较低。
– Delta Tuning 虽然添加了额外参数，但由于参数数量有限，过拟合风险也相对较低。
5. 计算资源：
– Prompt Tuning 和 Delta Tuning 都旨在减少微调所需的计算资源，但 Delta Tuning 可能需要更多的资源来训练额外的参数。
        总的来说，Prompt Tuning 和 Delta Tuning 都是为了在保持预训练模型泛化能力的同时，快速适应新任务而设计的微调方法。它们通过减少需要调整的参数数量来降低训练成本，并且可以在有限的数据上进行有效训练。选择哪种方法取决于具体的应用场景和资源限制。