文件读取 pandas.read_csv
pandas.read_csv(filepath_or_buffer,
sep=NoDefault.no_default,
delimiter=None,
header='infer',
names=NoDefault.no_default,
index_col=None,
usecols=None,
squeeze=None,
prefix=NoDefault.no_default,
mangle_dupe_cols=True,
dtype=None,
engine=None,
converters=None,
true_values=None,
false_values=None,
skipinitialspace=False,
skiprows=None,
skipfooter=0,
nrows=None,
na_values=None,
keep_default_na=True,
na_filter=True,
verbose=False,
skip_blank_lines=True,
parse_dates=None,
infer_datetime_format=False,
keep_date_col=False,
date_parser=None,
dayfirst=False,
cache_dates=True,
iterator=False,
chunksize=None,
compression='infer',
thousands=None,
decimal='.',
lineterminator=None,
quotechar='"',
quoting=0,
doublequote=True,
escapechar=None,
comment=None,
encoding=None,
encoding_errors='strict',
dialect=None,
error_bad_lines=None,
warn_bad_lines=None,
on_bad_lines=None,
delim_whitespace=False,
low_memory=True,
memory_map=False,
float_precision=None,
storage_options=None)
参数:
- filepath_or_buffer:str, path object or file–like object.字符串。任何有效的字符串路径都可以,网址也行。
- sep:str, default ‘,’。字符串,表示分隔符,默认为’,’ .。一个字符及以上都可以,注意如果是转义字符要加’’
- delimiter:str, default None。字符串,sep的别名,默认None。
- header:int, list of int, None, default ‘infer’。用作列名的行号,默认是0(第一行),如果没有列名默认None。
- names:array–like, optional。结果的列名列表,与header=None共同使用。
- index_col:int, str, sequence of int / str, or False, optional, default None。用作结果中行索引的列号或列名,可以是一个单一的名称数字,也可以是一个分层索引。
- usecols:list–like or callable, optional。返回列的子集。
- squeeze:bool, default False。如果解析的数据仅包含一列,则返回一个Series。
- prefix:str, optional。没有标题时要添加到列号的前缀
- mangle_dupe_cols:bool, default True。重复的列将被指定为“ X”,“ X.1”,……“ X.N”,而不是“ X”……“ X”。如果列中的名称重复,则False将导致数据被覆盖。
- dtype:Type name or dict of column -> type, optional。数据或列的数据类型。
- engine:{‘c’, ‘python’, ‘pyarrow’}, optional。要使用的解析器引擎。C引擎速度更快,而python引擎当前功能更完善。
- converters:dict, optional。包含列名称映射到函数的字典,例如{‘foo’: f}会把函数f应用到’foo’列。
- true_values:list, optional。视为True的值
- false_values:list, optional。视为False的值
- skipinitialspace:bool, default False。在定界符后跳过空格。
- skiprows:list–like, int or callable, optional。在文件开始处要跳过的行号(索引为0)或要跳过的行数(整数)。
- skipfooter:int, default 0。忽略文件尾部的行数。
- nrows:int, optional。从文件开头处读入的行数。
- na_values:scalar, str, list–like, or dict, optional。需要用NA替换的值序列。
- keep_default_na:bool, default True。解析数据时是否包括默认的NaN值。
- na_filter:bool, default True。检测缺失值标记(空字符串和na_values的值)。请注意,如果将na_filter传递为False,则将忽略keep_default_na和 na_values参数。
- verbose:bool, default False。打印各种解析器输出的信息,比如位于非数值列中的缺失值的数量。
- skip_blank_lines:bool, default True。如果为True,跳过空白行,并且不解释为NaN值。
- parse_dates:bool or list of int or names or list of lists or dict, default False。尝试将数据解析为datetime,默认为False。如果为True,将尝试解析所有的列。也可以指定列号或列名列来进行解析。如果列表的元素是元组或列表,将会把多个列组合在一起进行解析(例如日期时间将拆分成两列)
- infer_datetime_format:bool, default False。如果启用True和parse_dates,则pandas将尝试推断列中日期时间字符串的格式,并且如果可以推断出日期格式,就会切换到更快的解析它们的方法。
- keep_date_col:bool, default False。如果连接列到解析日期上,保留被连接的列,默认为False。
- date_parser:function, optional。用于解析日期的函数。
- dayfirst:bool, default False。解析非明确日期时,DD / MM格式的日期,国际和欧洲格式。
- cache_dates:bool, default True。如果为True,则使用唯一的转换日期缓存来应用datetime转换。
- iterator:bool, default False。返回TextFileReader对象,用于零散地读入文件。
- chunksize:int, optional。用于迭代的块大小。
- compression:str or dict, default ‘infer’。用于对磁盘数据进行即时解压缩。设置为“无”将不进行解压缩。
- thousands:str, optional。千位分隔符。
- decimal:str, default ‘.’。识别为小数点的字符(例如,对于欧洲数据,请使用“,”)。
- lineterminator:str (length 1), optional。用于将文件分成几行的字符。仅对C解析器有效。
- quotechar:str (length 1), optional。用于表示引用项目的开始和结束的字符。
- quoting:int or csv.QUOTE_* instance, default 0
- doublequote:bool, default True。如果指定quotechar而未使用引号QUOTE_NONE,则指示是否将一个字段内的两个连续的quotechar元素解释为单个quotechar元素。
- escapechar:str (length 1), optional。一字符字符串,用于转义其他字符。
- comment:str, optional。在行结尾处分隔注释的字符。
- encoding:str, optional。读/写时用于UTF的编码(例如’utf-8’)。
- encoding_errors:str, optional, default “strict”。默认情况下,具有太多字段的行(例如,带有太多逗号的csv行)将引发异常,并且不会返回任何DataFrame。如果为False,则这些“坏行”将从返回的DataFrame中删除。
- dialect:str or csv.Dialect, optional。如果提供的话,该参数将覆盖为以下参数的值(默认或不):delimiter, doublequote, escapechar, skipinitialspace, quotechar, and quoting。
- warn_bad_lines:bool, optional, default None。如果error_bad_lines为False,而warn_bad_lines为True,则将为每个“坏行”输出警告。
- on_bad_lines:{‘error’, ‘warn’, ‘skip’} or callable, default ‘error’
- delim_whitespace:bool, default False。指定是否将空格(例如或)用作分隔符。
- low_memory:bool, default True。在内部对文件进行分块处理,从而在解析时减少了内存使用。
- memory_map:bool, default False。如果为filepath_or_buffer提供了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I / O开销。
- float_precision:str, optional。指定C引擎应将哪个转换器用于浮点值。
- storage_options:dict, optional。解析特殊的URL。如果为该参数提供非fsspec URL,则会引发错误。
import pandas as pd
pd.read_csv('data.csv')
分块读入文件
- 读取前五行,指明nrows=5
import pandas as pd
df = pd.read_csv('test.csv', nrows=5)
pandas.DataFrame.to_csv
DataFrame.to_csv(path_or_buf=None,
sep=',',
na_rep='',
float_format=None,
columns=None,
header=True,
index=True,
index_label=None,
mode='w',
encoding=None,
compression='infer',
quoting=None,
quotechar='"',
line_terminator=None,
chunksize=None,
date_format=None,
doublequote=True,
escapechar=None,
decimal='.',
errors='strict',
storage_options=None)
参数:
- path_or_buf:str, path object, file-like object, or None, default None。字符串或文件目录,文件路径或对象,如果未提供,结果将作为字符串返回。如果传递了一个文件对象,应该用换行= ’ ‘,禁用通用换行符。
- sep:str, default ‘,’。输出文件的字段分隔符。
- na_rep:str, default ‘’。字符串,默认为 ‘’ 浮点数格式字符串。
- float_format:str, default None。浮点数格式字符串。
- columns:sequence, optional。写出列名。如果给定字符串列表,则假定为列名的别名。
- header:bool or list of str, default True。指定行数用来作为列名,数据开始行数。
- index:bool, default True。写入行名称(索引)。
- index_label:str or sequence, or False, default None
- mode:str。Python写模式,默认“w”
- encoding:str, optional。表示在输出文件中使用的编码的字符串,Python 2上默认为“ASCII”和Python 3上默认为“UTF-8”。
- compression:str or dict, default ‘infer’。表示在输出文件中使用的压缩的字符串,允许值为“gzip”、“bz2”、“xz”,仅在第一个参数是文件名时使用。
- quoting:optional constant from csv module。默认值为to_csv.QUOTE_MINIMAL。如果设置了浮点格式,那么浮点将转换为字符串,因此csv.QUOTE_NONNUMERIC会将它们视为非数值的。
- quotechar:str, default ‘”’。用于引用字段的字符
- line_terminator:str, optional
- chunksize:int or None。一次写入行。
- date_format:str, default None。字符串对象转换为日期时间对象
- doublequote:bool, default True。控制一个字段内的quotechar。
- escapechar:str, default None。在适当的时候用来转义sep和quotechar的字符。
- decimal:str, default ‘.’。字符识别为小数点分隔符。例如。欧洲数据使用 ’,’。
- errors:str, default ‘strict’
- storage_options:dict, optional
返回值:
None or str
df = pd.DataFrame({'name': ['Raphael', 'Donatello'],
'mask': ['red', 'purple'],
'weapon': ['sai', 'bo staff']})
df.to_csv(index=False)
# 'name,mask,weaponnRaphael,red,sainDonatello,purple,bo staffn'
原文地址:https://blog.csdn.net/weixin_43956958/article/details/125881300
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_18351.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。