pandas包教程（持续更新ing…）

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9959 entries, 0 to 9958
Data columns (total 25 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   days_act       9959 non-null   int64         
 1   days_plan      9959 non-null   int64         
 2   profit_pero    9959 non-null   int64         
 3   sales_pred     9959 non-null   int64         
 4   sales_perc     9959 non-null   int64         
 5   shipment       9959 non-null   object        
 6   records        9959 non-null   int64         
 7   profit_rate    9959 non-null   float64       
 8   product_name   9959 non-null   object        
 9   profit         9959 non-null   int64         
 10  shipment_date  9959 non-null   datetime64[ns]
 11  country        9959 non-null   object        
 12  region         9959 non-null   object        
 13  city           9959 non-null   object        
 14  sub_category   9959 non-null   object        
 15  customer_name  9959 non-null   object        
 16  discount       9959 non-null   float64       
 17  num            9959 non-null   int64         
 18  province       9959 non-null   object        
 19  category       9959 non-null   object        
...
 23  post_method    9959 non-null   object        
 24  sales_act      9959 non-null   int64         
dtypes: datetime64[ns](2), float64(2), int64(9), object(12)
memory usage: 1.9+ MB

查看前面几行：table1.head()（默认打印5行）
查看最后几行：table1.tail()（默认打印5行）
查看某一列有多少种取值：table1['col1'].nunique()
查看某一列的所有取值：table1['col1'].unique()
查看某一列所有取值与对应数目：table1['col1'].value_counts()（默认降序排列）
查看某一列的缺失值总数：table1['col1'].isna().sum()

3.5 缺失值填充

直接将title列的缺失值（None）置为空字符串：train['title'] = train['title'].fillna('')

3.6 其他

重置索引，且不保留原始索引：table2=table1.reset_index(drop=True)
检测某一个应该是str格式的元素是否是空值：isinstance(factor,str) or not np.isnan(factor)
转换数据格式
1. DataFrame.astype(dtype, copy=None, errors='raise')
2. pandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=False, format=None, exact=_NoDefault.no_default, unit=None, infer_datetime_format=_NoDefault.no_default, origin='unix', cache=True)

4. 处理pd.Series格式的对象

类似dict的键值对格式

索引：index
值：value

1. 创建

DataFrame列实际上就是Series，所以经常对DataFrame列进行操作之后，返回值就是Series
比如：data['shipment_date']-data['order_date']

2. 修改

map(arg, na_action=None)：对元素值进行批量处理

3. 查看与分析数据

求和：sum()
最大值：max()
最小值：min()
不重复值（返回np.array）：unique()
不重复值和对应出现次数：value_counts()

5. pandas类函数

to_numeric(arg, errors='raise', downcast=None, dtype_backend=_NoDefault.no_default)
将arg转换为数值类型
1. arg：可以是pd.Series对象

6. 常见bug和警告

没有安装openpyxl，需要自己安。安完之后再重新运行代码，还是会报这个警告（在运行read_excel()时报警告）：
但是据我观察不影响后续程序运行，所以我也不管了。

7. 本文撰写过程中参考的网络 资料

原文地址:https://blog.csdn.net/PolarisRisingWar/art icle/details/125031226

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_11811.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

pandas python

文章 目录

1. 安装

2. 导入 导出

2.1 xlsx后缀的Ex cel文件

2.2 SQL

2.3 CSV文件

3. 处理 pd.DataFrame格式的对象

3.0 属性

3.1 新建 表格

3.2 合并 表格

3.3 取出数据

3.3.1 按列取

3.3.2 按行取

3.3.3 按行列坐标取

3.3.4 按条件取

3.4 查看与分析数据

3.5 缺失值填充

3.6 其他

4. 处理pd.Series格式的对象

1. 创建

2. 修改

3. 查看与分析数据

5. pandas类函数

6. 常见bug和警告

7. 本文撰写过程中参考的网络 资料

发表回复取消回复

1. 安装

2. 导入导出

2.1 xlsx后缀的Excel文件

2.2 SQL

2.3 CSV文件

3. 处理pd.DataFrame格式的对象

3.0 属性

3.1 新建表格

3.2 合并表格

3.3 取出数据

3.3.1 按列取

3.3.2 按行取

3.3.3 按行列坐标取

3.3.4 按条件取

3.4 查看与分析数据

3.5 缺失值填充

3.6 其他

4. 处理pd.Series格式的对象

1. 创建

2. 修改

3. 查看与分析数据

5. pandas类函数

6. 常见bug和警告

7. 本文撰写过程中参考的网络资料

相关文章

发表回复 取消回复

2.1 xlsx后缀的Ex cel文件

3. 处理 pd.DataFrame格式的对象

发表回复取消回复