pandas官网:pandas – Python Data Analysis Library
pandas文档官网:pandas documentation — pandas 1.4.2 documentation
1. 安装
如果使用anaconda作为Python虚拟环境管理工具,则其base环境中会直接默认安装pandas包,这也是pandas官网getting started页面中介绍的方法:pandas – Python Data Analysis Library
anaconda的安装和使用此处不再赘述。
如果不是anaconda的base环境,则可以参考pandas文档中安装部分的介绍来进行安装:Installation — pandas 1.4.2 documentation
pandas官方支持Python3.8, 3.9和3.10版本。
直接在虚拟环境中用conda安装即可:conda install pandas
2. 导入导出
2.1 xlsx后缀的Excel文件
导入:data=pd.read_excel('file.xlsx')
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
入参:
2.2 SQL
导出:
DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None, method=None)
入参:
2.3 CSV文件
3. 处理pd.DataFrame格式的对象
3.0 属性
3.1 新建表格
3.2 合并表格
3.3 取出数据
3.3.1 按列取
3.3.2 按行取
3.3.3 按行列坐标取
dataframe.loc[1, 'c']
dataframe.iloc[1, 3]
3.3.4 按条件取
3.4 查看与分析数据
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9959 entries, 0 to 9958
Data columns (total 25 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 days_act 9959 non-null int64
1 days_plan 9959 non-null int64
2 profit_pero 9959 non-null int64
3 sales_pred 9959 non-null int64
4 sales_perc 9959 non-null int64
5 shipment 9959 non-null object
6 records 9959 non-null int64
7 profit_rate 9959 non-null float64
8 product_name 9959 non-null object
9 profit 9959 non-null int64
10 shipment_date 9959 non-null datetime64[ns]
11 country 9959 non-null object
12 region 9959 non-null object
13 city 9959 non-null object
14 sub_category 9959 non-null object
15 customer_name 9959 non-null object
16 discount 9959 non-null float64
17 num 9959 non-null int64
18 province 9959 non-null object
19 category 9959 non-null object
...
23 post_method 9959 non-null object
24 sales_act 9959 non-null int64
dtypes: datetime64[ns](2), float64(2), int64(9), object(12)
memory usage: 1.9+ MB
- 查看前面几行:
table1.head()
(默认打印5行) - 查看最后几行:
table1.tail()
(默认打印5行) - 查看某一列有多少种取值:
table1['col1'].nunique()
- 查看某一列的所有取值:
table1['col1'].unique()
- 查看某一列所有取值与对应数目:
table1['col1'].value_counts()
(默认降序排列) - 查看某一列的缺失值总数:
table1['col1'].isna().sum()
3.5 缺失值填充
3.6 其他
- 重置索引,且不保留原始索引:
table2=table1.reset_index(drop=True)
- 检测某一个应该是str格式的元素是否是空值:
isinstance(factor,str) or not np.isnan(factor)
- 转换数据格式
4. 处理pd.Series格式的对象
索引:index
值:value
1. 创建
2. 修改
3. 查看与分析数据
5. pandas类函数
6. 常见bug和警告
7. 本文撰写过程中参考的网络资料
- pandas中DataFrame 数据合并,连接(merge,join,concat)_dataframe merge on index_Paulzhao6518的博客-CSDN博客
- Python中布尔值Bool的取反问题 – 知乎
- 详解 Pandas 与 Lambda 结合进行高效数据分析_AI科技大本营的博客-CSDN博客
- python3 判断字符串是否包含中英文和数字_Saggitarxm的博客-CSDN博客
- pandas重置DataFrame或Series的索引index_series 去除index_不论如何未来很美好的博客-CSDN博客
- pandas中对nan空值的判断和陷阱_pandas nan判断_S_o_l_o_n的博客-CSDN博客
原文地址:https://blog.csdn.net/PolarisRisingWar/article/details/125031226
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_11811.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!