大语言模型训练数据集_代码007(未授权)

本文介绍: 网址: [https://www.ted.com/participate/translate/get-started](https://www.ted.com/participate/translate/get-started)- 网址: [https://nlp.stanford.edu/projects/snli/](https://nlp.stanford.edu/projects/snli/)- 介绍: TED演讲的数据集不仅包括视频内容的字幕文本，还包含了许多语言的翻译版本。

大语言模型的数据集有很多，以下是一些常用的：

– 中文维基百科：这是一个包含大量中文文本的数据集，可用于训练中文语言模型。
– 英文维基百科：这是一个包含大量英文文本的数据集，可用于训练英文语言模型。
– Common Crawl：这是一个包含大量英文文本的数据集，可用于训练英文语言模型。
– WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等：这些都是近年来大火的大语言模型数据集。

此外，一个1.6TB的数据集跨越了59种语言(46种自然语言，13种编程语言)，用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。

在开发大语言模型时，选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发，可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时，也可以参考huggingface，modelscope等平台，这些平台上有一些常用的数据集。

1. **Common Crawl**
– 网址: [http://commoncrawl.org](http://commoncrawl.org)
– 介绍: Common Crawl是一个非盈利组织，提供公共访问的Web数据集。它定期爬取整个网站，并通过其归档让大量的网页文本数据可用于各种研究和开发目的。

2. **Wikipedia**
– 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
– 介绍: 维基百科数据转储包含了所有维基百科条目的文本，用于提供信息，学术研究或者作为NLP任务的数据源。它支持多种语言，并且可以免费下载和使用。