互联网 Megatron-LM源码系列(七):Distributed-Optimizer分布式优化器实现Part2 本文介绍: Megatron-LM源码系列(七):Distributed-Optimizer...
互联网 [论文笔记] PAI-Megatron 1、Qwen continuing pretrain(CT)千问预训练 本文介绍: 数据情况:预训练数据已经用qwen-tokenizer分过词。所以不需要准备数据...