使用deepspeed继续训练LLAMA

参数分组: 通过 get_optimizer_grouped_parameters 函数实现参数分组，一组应用权重衰减，另一组不应用。
优化器选择: 根据训练环境选择 DeepSpeedCPUAdam 或 FusedAdam。
学习率调度: 动态调整学习率，考虑预热步骤和总训练步数。

首页
互联网
正文

本文介绍: 定义全局批次大小 (GLOBAL_BATCH_SIZE) 和每 GPU 微批次大小 (MICRO_BATCH_SIZE)。DeepSpeed 库提供了优化的优化器算法，如 DeepSpeedCPUAdam 和 FusedAdam，提高了大规模数据和模型训练速度。利用 PyTorch 和 Transformers 库创建数据加载器，它支持单机或多机分布式训练环境下的数据加载与采样。get_eval_ds_config 函数提供简洁的验证集配置，专注于模型推理。

LLAMA 模型子结构：

1. 数据训练配置

利用 PyTorch 和 Transformers 库创建数据加载器，它支持单机或多机分布式训练环境下的数据加载与采样。涉及的模块包括：

DataLoader: 由 PyTorch 提供，用于数据集到模型的数据加载。
RandomSampler 和 SequentialSampler: PyTorch 提供的随机和顺序数据采样器。
DistributedSampler: 专为分布式训练设计的采样器。
default_data_collator: Transformers 库的默认数据整合器，用于批量数据处理。
create_pretrain_dataset: 创建预训练数据集的自定义函数。

根据 args.local_rank 的值，选择单机采样器或分布式采样器。DistributedSampler 确保每个训练节点获得唯一数据子集，而单机环境下则使用随机或顺序采样器。

2. 模型载入

通过 Transformers 库，加载并配置 LLaMA 模型及其分词器。使用 from_pretrained 方法加载预训练模型、分词器和配置。设置分词器以处理不同文本长度，并设定填充符号为 [PAD]，确保填充发生在句子右侧。模型配置中也设置了句子结束和填充符号的 ID，并优化了词汇表嵌入大小以提升硬件性能。