本文介绍: 可以将datasets中的Dataset实例看做是一张数据表。map方法会将输入的function按照指定的方式应用在每一行(每一行称为一个example)上。是map方法的核心,其介绍单独放在下列章节。
Dataset.map 方法概要
可以将datasets中的Dataset实例看做是一张数据表。map方法会将输入的function
按照指定的方式应用在每一行(每一行称为一个example)上。本文采用一下示例进行说明:
function
是map方法的核心,其介绍单独放在下列章节。其它常用参数的说明如下:
function位置参数
function位置参数接受一个可调用对象,本质是该可调用对象对数据表中的每行进行处理。按照布尔型位置参数with_indices, with_rank, batched
的取值, function有8种签名。其中batched表示可调用对象一次处理一行还是多行,with_indices表示是否将样本的索引编号传入可调用对象, with_rank表示是否将进程rank传入可调用对象。
单样本处理(batched=False)
样本批处理(Batched=True)
当设置batched=True
时,可调用对象会对样本进行批处理,批的大小可以通过batch_size
控制,默认一个批为1000条样本。此情况下签名应满足function(batch: Dict[str, List]) -> Dict[str, List]
。batch中的键仍然是数据表中的列名称,值为多行数据组成的列表。
map方法返回的torch.tensor会被转换为list
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。