在 Pandas 中使用自定义函数

在pandas中进行数据分析，面对复杂的数据处理需求时经常会创建自定义函数来进行数据处理。那么，自定义函数在pandas中如何使用呢？
一、创建自定义函数
在这里插入图片描述
示例：计算BMI指数

# 实现计算BMI指数：体重/身高的平方(kg/m^2)
def bmi(weight,height):
    return weight/((height/100)**2)

二、使用自定义函数
pandas 的 apply() 函数可以作用于 Ser ie s 或者整个 Da taFram e，功能也是自动遍历整个 Ser ie s 或者 Da taFr a m e, 对每一个元素运行指定的函数。Da taFr a m e中 apply的工作方式为，先通过 axis 参数，按行/列将Da taFr a m e 切片成一行/列的Ser ie s，放入元组。然后使用底层的C语言实现高效的元组遍历。
官方上给出的 apply() 用法：
DataFram e.apply(self, func, axi s=0, raw=Fals e, result _type=Non e, args=(), **k w ds）
func 代表的是传入的函数或 lambda 表达式；

axi s 参数可提供的有两个，该参数默认为0/列
0 或者 index ，表示函数处理的是每一列；
1 或 columns ，表示处理的是每一行;

raw ；bool 类型，默认为 Fals e;
Fals e ，表示把每一行或列作为 Ser ies 传入函数中；
Tr ue，表示接受的是 nd array 数据类型；

apply() 最后的是经过函数处理，数据以 Se r ies 或 DataFrame 格式返回。
axis参数
axis参数指的是“切片的方向”而不是“应用的方向”。因此axis=0表示沿着0轴方向切片即按列切片，axis=1表示沿着1轴方向切片即按行切片
在这里插入图片描述
apply 参数传递

DataFrame中 apply的工作方式为，先通过 axis参数，按行/列将DataFrame切片成一行/列的Series，放入元组。然后将元组中的元素（各行/列切片形成的Series）传入要应用的函数func。当要应用的函数func只有一个函数时写成apply(func)和apply(lambda x:func(x))效果是一致的。但是当func有多个参数时，只能写成apply(lambda x:func(x,y,z))。同时使用lambda函数也增加了fun c 参数的灵活性，使的fun c的参数不局限与一整行/列形成的Series。但是lambda 改变了ap ply函数的作用域，需要注意。

import pandas as pd
import numpy as np
df=pd.DataFrame({"id":np.arange(100),
                 "height":np.random.randint(160,190,100),
                "weight":np.random.randint(60,90,100)})

df['bmi']=df.apply(lambda x:bmi(x['weight'],x['height']),axis=1)

df.apply(lambda x: func(x['col1'],x['col2']),axis=1)

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

pandas 函数自定义

相关文章

发表回复 取消回复

发表回复取消回复