透视表是一种可以对数据动态排布并且分类汇总的表格格式。pivot_table是pandas中数据透视表的函数。
pandas.pivot_table — pandas 1.5.1 documentation
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc=’mean’, fill_value=None, margins=False, dropna=True, margins_name=’All’, observed=False, sort=True)
看一下参数主要的作用:
values:被计算的数据项,设定需要被聚合操作的列(需要显示的列)
index:每个pivot_table必须拥有一个index,必选参数,设定数据的行索引,可以设置多层索引,多次索引时按照需求确定索引顺序。
columns:必选参数,设定列索引,用来显示字符型数据,和fill_value搭配使用。
Aggfunc:聚合函数, pivot_table后新dataframe的值都会通过aggfunc进行运算。默认numpy.mean求平均。
fill_values:填充NA值(设定缺省值)。默认不填充,可以指定。
margins:添加行列的总计,默认FALSE不显示。TRUE显示。
dropna:如果整行都为NA值,则进行丢弃,默认TRUE丢弃。FALSE时,被保留。
margins_name:margins = True 时,设定margins 行/列的名称。’all’ 默认值
数据来自:Titanic – Machine Learning from Disaster | Kaggle
import numpy as np
import pandas as pd
data = pd.read_csv(r"D:A USTCCSDNkaggleTitanic - Machine Learning from Disastertrain.csv")
#index:按Pclass进行索引,aggfunc默认按平均值聚合,values默认只显示可以按平均值聚合的列
data.pivot_table(index = 'Pclass')
可以看到聚合之后的结果:对于非整型和浮点型等不可以按平均值聚合的数据没有显示
#index可以进行多层索引,比如先按舱位后按性别索引
data.pivot_table(index = ['Pclass','Sex'])
#index索引注意顺序不同达到目标不同
data.pivot_table(index = ['Sex','Pclass'])
#values:筛选需要显示的列,这里显示Survived列,因此我们可以看到不同等级舱位的平均生存率
data.pivot_table(index = 'Pclass',values='Survived')
- Columns
#columns:列索引,统计不同等级舱位男性和女性的平均生存率,列索引为Sex
data.pivot_table(index = 'Pclass',columns='Sex',values='Survived')
#columns可以对字符串数据设定列索引,比如这里的Embarked
data.pivot_table(index = 'Pclass',columns='Embarked',values='Survived')
#aggfunc:聚合方式,比如下面把name列按len聚合
data.pivot_table(index = 'Pclass',aggfunc={'Name':len})
#甚至可以把name列按sum聚合查看不同舱位的乘客姓名
data.pivot_table(index = 'Pclass',aggfunc={'Name':sum})
#先看一下不用fill_value不设定缺省值的情况,空值显示的是NAN
data.pivot_table(columns='Cabin')
#fill_value:设定缺省值为0后,NAN替代为0
data.pivot_table(columns='Cabin',fill_value=0)
#margins=True,true会添加行/列的总计,可以看到最后有个all行
#默认FALSE。columns对应右侧的总计,index对应底部的总计。
data.pivot_table(index = 'Pclass',columns='Sex',margins=True)
#plus1:得到不同年龄段的生存概率,未成年和成年
age = pd.cut(data['Age'], [0, 18, 80])
data.pivot_table(values='Survived', index=['Sex', age],columns= 'Pclass')
#这样就得到了不同性别、年龄组、舱位等级的乘客的生存率
#plus2:不同列采用不同聚合方式
data.pivot_table(columns='Sex', index='Pclass',aggfunc={'Survived':sum, 'Fare':'mean'})
原文地址:https://blog.csdn.net/weixin_49249463/article/details/127578300
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_27240.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!