huggingface dataset中又很多开源数据集,使用起来非常方便,加载数据集代码如下所示。
from datasets import load_dataset
dataset = load_dataset("glue", "ax")
有时,我们希望使用自己的数据集,又与huggingface代码兼容,那就要自己构建一个dataset了。
通常我们的数据是放在csv或excel表格中,通过pandas读取,那如何把表格数据转化为dataset呢?
from datasets import load_dataset
import pandas as pd
dataset = load_dataset("csv", data_files="my_file.csv")
dataset = load_dataset('csv', data_files={'train': 'train.csv', 'test': 'test.csv'})
dataset = load_dataset("json", data_files="my_file.json")
dataset = load_dataset('json', data_files={'train': 'train.json', 'test': 'test.json'})
import pandas as pd
from datasets import Dataset, DatasetDict
train = Dataset.from_pandas(pd.read_csv('train_spam.csv'))
test = Dataset.from_pandas(pd.read_csv('test_spam.csv'))
dataset = DatasetDict()
dataset['train'] = train
dataset['test'] = test
from datasets import Dataset
# dict
my_dict = {"a": [1, 2, 3]}
dataset = Dataset.from_dict(my_dict)
# list
my_list = [{"a": 1}, {"a": 2}, {"a": 3}]
dataset = Dataset.from_list(my_list)
# generator
def my_gen():
for i in range(1, 4):
yield {"a": i}
dataset = Dataset.from_generator(my_gen)
原文地址:https://blog.csdn.net/m0_37750065/article/details/128867760
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_6927.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。