python入门——Pandas透视表(pivot_table)

pandas.piv o t_table(data, values=Non e, index=Non e, column s=Non e, agg func=’m e an’, fill_value=None, margins=Fa lse, dropna=Tr ue, margins_name=’All’, observed=Fa lse, sort=Tr ue)

看一下参数主要的作用：

d a t a:DataFrame

value s:被计算的数据项，设定需要被聚合操作的列（需要显示的列）

index:每个piv o t_table必须拥有一个 index,必选参数，设定数据的行索引，可以设置多层索引，多次索引时按照需求确定索引顺序。

column s:必选参数，设定列索引，用来显示字符型数据，和fill_value搭配使用。

Agg func:聚合函数， pivot_table后新dataframe的值都会通过 agg func进行运算。默认 numpy.mean求平均。

fill_value s:填充NA值（设定缺省值）。默认不填充，可以指定。

margins：添加行列的总计，默认FALSE不显示。TRUE显示。

dropna：如果整行都为NA值，则进行丢弃，默认TRUE丢弃。FALSE时，被保留。

margin s_name：m ar gin s = Tr ue 时，设定mar gin s 行/列的名称。’all’ 默认值

接下来用泰塔尼克号数据做一个简单的实践。

数据来自：Titanic – Machine Learning from Disaster | Kaggle

首先导入 num py和pandas库

import numpy as np
import pandas as pd

其次读取文件

data = pd.read_csv(r"D:A USTCCSDNkaggleTitanic - Machine Learning from Disastertrain.csv")

可以通过 data直接看一下读取的文件

接着实践一下各个参数的作用。

index

#index：按Pclass进行索引，aggfunc默认按平均值聚合，values默认只显示可以按平均值聚合的列
data.pivot_table(index = 'Pclass')

可以看到聚合之后的结果：对于非整型和浮点型等不可以按平均值聚合的数据没有显示

我们也可以通过 d types看一下每一列的类型

#index可以进行多层索引,比如先按舱位后按性别索引
data.pivot_table(index = ['Pclass','Sex'])

#index索引注意顺序不同达到目标不同
data.pivot_table(index = ['Sex','Pclass'])

val ues

#values:筛选需要显示的列，这里显示Survived列，因此我们可以看到不同等级舱位的平均生存率
data.pivot_table(index = 'Pclass',values='Survived')

Columns

#columns:列索引,统计不同等级舱位男性和女性的平均生存率，列索引为Sex
data.pivot_table(index = 'Pclass',columns='Sex',values='Survived')

#columns可以对字符串数据设定列索引，比如这里的Embarked
data.pivot_table(index = 'Pclass',columns='Embarked',values='Survived')

agg func

#aggfunc:聚合方式,比如下面把name列按len聚合
data.pivot_table(index = 'Pclass',aggfunc={'Name':len})

#甚至可以把name列按sum聚合查看不同舱位的乘客姓名
data.pivot_table(index = 'Pclass',aggfunc={'Name':sum})

fill_value

#先看一下不用fill_value不设定缺省值的情况,空值显示的是NAN
data.pivot_table(columns='Cabin')

#fill_value:设定缺省值为0后，NAN替代为0
data.pivot_table(columns='Cabin',fill_value=0)

mar gins

#margins=True,true会添加行/列的总计,可以看到最后有个all行
#默认FALSE。columns对应右侧的总计，index对应底部的总计。
data.pivot_table(index = 'Pclass',columns='Sex',margins=True)

比较常用的参数介绍完之后，我们看一下两个小的plus。

#plus1：得到不同年龄段的生存概率，未成年和成年
age = pd.cut(data['Age'], [0, 18, 80]) 
data.pivot_table(values='Survived', index=['Sex', age],columns= 'Pclass')
#这样就得到了不同性别、年龄组、舱位等级的乘客的生存率

#plus2：不同列采用不同聚合方式
data.pivot_table(columns='Sex', index='Pclass',aggfunc={'Survived':sum, 'Fare':'mean'})

原文地址:https://blog.csdn.net/weixin_49249463/arti cle/details/127578300

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_27240.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

看一下参数主要的作用：

相关文章

发表回复 取消回复

发表回复取消回复