大语言模型的数据集有很多,以下是一些常用的:
– 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。
– 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
– Common Crawl:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
– WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等:这些都是近年来大火的大语言模型数据集。
此外,一个1.6TB的数据集跨越了59种语言(46种自然语言,13种编程语言),用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。
在开发大语言模型时,选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发,可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时,也可以参考huggingface,modelscope等平台,这些平台上有一些常用的数据集。
1. **Common Crawl**
– 网址: [http://commoncrawl.org](http://commoncrawl.org)
– 介绍: Common Crawl是一个非盈利组织,提供公共访问的Web数据集。它定期爬取整个网站,并通过其归档让大量的网页文本数据可用于各种研究和开发目的。
2. **Wikipedia**
– 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
– 介绍: 维基百科数据转储包含了所有维基百科条目的文本,用于提供信息,学术研究或者作为NLP任务的数据源。它支持多种语言,并且可以免费下载和使用。