huggingface dataset中又很多开源数据集,使用起来非常方便,加载数据代码如下所示


from datasets import load_dataset
dataset = load_dataset("glue", "ax")

有时,我们希望使用自己的数据集,又与huggingface代码兼容,那就要自己构建一个dataset了。
通常我们的数据是放在csvexcel表格中,通过pandas读取,那如何把表格数据转化为dataset呢?

from datasets import load_dataset
import pandas as pd

dataset = load_dataset("csv", data_files="my_file.csv")
dataset = load_dataset('csv', data_files={'train': 'train.csv', 'test': 'test.csv'})

dataset = load_dataset("json", data_files="my_file.json")
dataset = load_dataset('json', data_files={'train': 'train.json', 'test': 'test.json'})


import pandas as pd
from datasets import Dataset, DatasetDict
 

train = Dataset.from_pandas(pd.read_csv('train_spam.csv'))
test = Dataset.from_pandas(pd.read_csv('test_spam.csv'))
 
dataset = DatasetDict()
dataset['train'] = train
dataset['test'] = test

from datasets import Dataset

# dict
my_dict = {"a": [1, 2, 3]}
dataset = Dataset.from_dict(my_dict)

# list
my_list = [{"a": 1}, {"a": 2}, {"a": 3}]
dataset = Dataset.from_list(my_list)

# generator
def my_gen():
    for i in range(1, 4):
        yield {"a": i}
dataset = Dataset.from_generator(my_gen)

原文地址:https://blog.csdn.net/m0_37750065/article/details/128867760

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_6927.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注