Pandas详细总结(20000字完结）

文章内容是我自己学习 pandas所做的一些笔记，知识点搭配案例，内容全面而详细。

import pandas a s p d

data=[‘语文’,’数学’,’英语’]
s=p d.Series(data=data,index=[‘张三’,’李四’,’王五’])

print(s)
# 张三    语文
# 李四    数学
# 王五    英语
# dtype: object

# 1 values 查看所有元素的值
# 2 dtypes 查看所有元素的类型
# 3 index 查看所有行名、重命名行名
# 4 columns 查看所有列名、重命名列名
# 5 T 行列数据转换
# 6 head 查看前N条数据,默认5条
# 7 tail 查看后N条数据,默认5条
# 8 shape 查看行数和列数shape[0]表示行,shape[1]表示列

data={
    '名称':['小太阳','剪刀','电脑'],
    '价格':[150,15,999],
    '数量':[99,999,888],
    '供应商':'英雄联盟'
}
s=pd.DataFrame(data=data)

1 s.values

2 s.dtypes

3 s.index

4 s.columns

5 s.T

8 s.shape s.shape[0] s.shape[1]

(3,4) 3 4

fp=pd.read_csv(r'C:Usersxiaoxin15Desktop美食商家数据.csv',sep=',',encoding='gbk')
# gbk对应ANSI
print(fp.head(5))

import pandas as pd
print('------------------------------------------------------------series')
s=pd.Series(data=[10,20,30],index=[1,2,3])
print(s)
print('-----------------------------重新设置索引')
print(s.reindex(range(1,6)))#多出的两个为nan
print('---------------------------------------')
print(s.reindex(range(1,6),fill_value=0))#使用0填充
print('---------------------------------------')
print(s.reindex(range(1,6),method='ffill'))#向前填充
print('---------------------------------------')
print(s.reindex(range(1,6),method='bfill'))#向后填充

from warnings import simplefilter
simplefilter(action="ignore",category=FutureWarning)
import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
s=pd.read_excel('数据排序.xlsx')
# print(s)
#    姓名  语文  数学  英语
# 0  张三    87    88    99
# 1  李四    84    87    91
# 2  王五    87    89    79
# 3  小虎    81    90    91
# 4  小红    80    94    78
# 5  小明    89    90    5
print('-------------------------------------------------------------求和')
s['总成绩']=s.sum(axis=1)
print(s)
print('-------------------------------------------------------------求均值')
s.loc['6']=['均值']+list(s.iloc[0:6,1:].mean(axis=0))
print(s)
print('-------------------------------------------------------------最大值')
s.loc['7']=['最大值']+list(s.iloc[0:6,1:].max(axis=0))
print(s)
print('-------------------------------------------------------------最小值')
s.loc['8']=['最低分']+list(s.iloc[0:6,1:].min())
print(s)
print('-------------------------------------------------------------中位数')
s.loc['9']=['中位数']+list(s.iloc[0:6,1:].median())
print(s)
print('-------------------------------------------------------------众数')
s.loc['10']=['众数']+list(s.iloc[0:6,1:].mode().loc[0])
print(s)
print('-------------------------------------------------------------方差')
# var()

import pandas as pd
s=pd.DataFrame(data={
    '产品名称':['电脑','手机','键盘','鼠标','手机','键盘','鼠标','电脑','手机'],
    '销售员':['张三','李四','张三','王五','李四','王五','王五','李四','张三'],
    '成交额':[4100,1000,100,100,800,200,50,3000,700],
    '成交量':[10,30,45,60,10,70,80,20,15]
    })
s1=s[['产品名称','成交量']]
print(s1)
#   产品名称  成交量
# 0   电脑   10
# 1   手机   30
# 2   键盘   45
# 3   鼠标   60
# 4   手机   10
# 5   键盘   70
# 6   鼠标   80
# 7   电脑   20
# 8   手机   15
print('----------------------------------对单列使用聚合函数')
a=s1.groupby('产品名称').agg(['sum','mean'])
print(a)
#       成交量           
#       sum       mean
# 产品名称                
# 手机     55  18.333333
# 电脑     30  15.000000
# 键盘    115  57.500000
# 鼠标    140  70.000000
print('----------------------------------对不同列使用不同聚合函数')
s2=s[['产品名称','成交量','成交额']]
print(s2)
#   产品名称  成交量   成交额
# 0   电脑   10  4100
# 1   手机   30  1000
# 2   键盘   45   100
# 3   鼠标   60   100
# 4   手机   10   800
# 5   键盘   70   200
# 6   鼠标   80    50
# 7   电脑   20  3000
# 8   手机   15   700
a=s2.groupby('产品名称').agg({'成交量':['sum','max'],'成交额':['sum','max','mean']})
print(a)
#       成交量       成交额                   
#       sum max   sum   max         mean
# 产品名称                                  
# 手机     55  30  2500  1000   833.333333
# 电脑     30  20  7100  4100  3550.000000
# 键盘    115  70   300   200   150.000000
# 鼠标    140  80   150   100    75.000000

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
s=pd.DataFrame(data={
    '销量':[4699,1456,8887,4441,666]
},index=['一月','二月','三月','四月','五月'])
print(s)
s['销售差']=s['销量']-s['销量'].shift()
print(s)

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
s=pd.DataFrame(data=[
    ['1','1班','王*亮','84','11'],
    ['2','1班','杨**','82','17'],
    ['3','1班','王*彬','78','37'],
    ['4','2班','赛*琪','77','51'],
    ['5','2班','刘**','76','64'],
    ['6','2班','刘*彤','74','89']
],columns=['序号','班级','姓名','得分','排名'])
print(s)
#   序号 班级   姓名 得分 排名
# 0    1  1班  王*亮   84   11
# 1    2  1班   杨**   82   17
# 2    3  1班  王*彬   78   37
# 3    4  2班  赛*琪   77   51
# 4    5  2班   刘**   76   64
# 5    6  2班  刘*彤   74   89
s=s.set_index(['班级','序号'])
print(s)
#             姓名 得分 排名
# 班级 序号                 
# 1班  1     王*亮   84   11
#      2      杨**   82   17
#      3     王*彬   78   37
# 2班  4     赛*琪   77   51
#      5      刘**   76   64
#      6     刘*彤   74   89
print('-----------------------------------------将原来的列索引转换成最内层的行索引')
s=s.stack()
print(s)
# 班级  序号    
# 1班   1     姓名    王*亮
#             得分       84
#             排名       11
#       2     姓名     杨**
#             得分       82
#             排名       17
#       3     姓名    王*彬
#             得分       78
#             排名       37
# 2班   4     姓名    赛*琪
#             得分       77
#             排名       51
#       5     姓名     刘**
#             得分       76
#             排名       64
#       6     姓名    刘*彤
#             得分       74
#             排名       89
# dtype: object
print('------------------------------------------------将最内层的行索引转换成列索引')
s=s.unstack()
print(s)
# ------------------------------------------------------将最内层的行索引转换成列索引
#             姓名 得分 排名
# 班级 序号                 
# 1班  1     王*亮   84   11
#      2      杨**   82   17
#      3     王*彬   78   37
# 2班  4     赛*琪   77   51
#      5      刘**   76   64
#      6     刘*彤   74   89
print('-------------------------------------------------------------行列转换pivot')
s=pd.DataFrame(data=[
    ['1','1班','王*亮','84','11'],
    ['2','1班','杨**','82','17'],
    ['3','1班','王*彬','78','37'],
    ['4','2班','赛*琪','77','51'],
    ['5','2班','刘**','76','64'],
    ['6','2班','刘*彤','74','89']
],columns=['序号','班级','姓名','得分','排名'])
print(s)
# #  序号 班级   姓名 得分 排名
# 0    1  1班  王*亮   84   11
# 1    2  1班   杨**   82   17
# 2    3  1班  王*彬   78   37
# 3    4  2班  赛*琪   77   51
# 4    5  2班   刘**   76   64
# 5    6  2班  刘*彤   74   89
print(s.pivot(index='序号',columns='班级',values='得分'))
# 班级  1班  2班
# 序号          
# 1      84  NaN
# 2      82  NaN
# 3      78  NaN
# 4     NaN   77
# 5     NaN   76
# 6     NaN   74

横向合并

s1=pd.DataFrame(data={
    'A':['1001','1002','1003'],
    'B':['56','38','47'],
    'C':['88','19','70'],
    'D':['96','78','81']
})
s2=pd.DataFrame(data={
    'D':['a','b','e','f'],
    'E':['c','d','h','j']
})

new_s=pd.concat([s1,s2],axis=1)

交叉 合并

s1=pd.DataFrame(data={
    'A':['1001','1002','1003'],
    'B':['56','38','47'],
    'C':['88','19','70'],
    'D':['a','b','e']
})
s2=pd.DataFrame(data={
    'D':['a','b','e','f'],
    'E':['c','d','h','j']
})
new_s=pd.concat([s1,s2],axis=1,join='inner')

import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
s1=pd.DataFrame(data={
    '学号':[1001,1002,1003],
    '语文':[56,38,47],
    '数学':[88,19,70],
    '英语':[96,78,81]
})
print(s1)
s1.to_excel('数据导出.xlsx',index=False)#index=False 不要索引
# s1.to_excel('数据导出.xlsx',index=False,sheet_name='demo1')#
print('----------------------------------------------导出到多个sheet表')
# 打开一个excel文件
work=pd.ExcelWriter('导出到多个sheet表.xlsx')
s1.to_excel(work,index=False,sheet_name='所有成绩表')#
s1[['学号','语文']].to_excel(work,index=False,sheet_name='语文成绩表')#
# 保存
work.save()

import pandas as pd
pd.set_option('display.unicode.east_asian_width',True)
s1=pd.DataFrame(data={
    '学号':['1001','1002','1003'],
    '语文':[56.12,38.36,47.89],
    '数学':[88,19,70],
    '英语':[96,78,81]
})
print(s1)
s1.to_csv('数据导出.csv',index=False,columns=['学号','语文','数学','英语'],float_format='%.1f')

import pandas as pd
s=pd.DataFrame(data={
    '原数据':['14-Feb-20','02/14/2020','2020.02.14','2020/02/14','20200214']
})
print(s)
print('--------------------------------------------日期转换')
s1=pd.to_datetime(s['原数据'])
print(s1)
print('要求列索引必须是year,month,day,hour,minute,second------------从多列中组合一个日期')
s2=pd.DataFrame(data={
    'year':[2000,2001,2017,2021],
    'month':[10,2,11,11],
    'day':[9,20,17,17],
    'hour':[5,2,1,0],
    'minute':[1,3,1,4],
    'second':[0,0,0,0]
})
s2['组合后的日期']=pd.to_datetime(s2)
print(s2)

import pandas as pd
s=pd.read_excel('d24_数据.xlsx')
s=s.sort_values(by=['日期'])
s=s.set_index('日期')
print(s)

print('------------------------------------------------------------------按年-')
s1=s.resample('AS').sum()
print(s1)

print('------------------------------------------------------------------按季度-')
s1=s.resample('Q').sum()
print(s1)

print('------------------------------------------------------------------按月-')
s1=s.resample('M').sum()
print(s1)

print('------------------------------------------------------------------按星期-')
s1=s.resample('W').sum()
print(s1)
print('------------------------------------------------------------------按天-')
s1=s.resample('D').sum()
print(s1)

import pandas as pd
s=pd.read_excel('d24_数据.xlsx')
s=s.sort_values(by=['日期'])
s=s.set_index('日期')
print(s)
print('------------------------------------------------------------------按年-')
s1=s.to_period('A')
print(s1)
print('------------------------------------------------------------------按季度-')
s1=s.to_period('Q')
print(s1)
print('------------------------------------------------------------------按月-')
s1=s.to_period('M')
print(s1)
print('------------------------------------------------------------------按星期-')
s1=s.to_period('W')
print(s1)
print('------------------------------------------------------------------按天-')
s1=s.to_period('D')
print(s1)

import pandas as pd
s=pd.read_excel('d24_数据.xlsx')
s=s.sort_values(by=['日期'])
s=s.set_index('日期')
print(s)
             价格
日期             
1999-09-01  100
1999-10-01  166
1999-10-02  167
2000-10-01  168
2001-10-09  169
2001-11-19  170
print('------------------------------------------------------------------按年-')
s1=s.resample('AS').sum().to_period('A')
print(s1)
print('------------------------------------------------------------------按季度-')
s1=s.resample('Q').sum().to_period('Q')
print(s1)
print('------------------------------------------------------------------按月-')
s1=s.resample('M').sum().to_period('M')
print(s1)
print('------------------------------------------------------------------按星期-')
s1=s.resample('W').sum().to_period('W')
print(s1)
print('------------------------------------------------------------------按天-')
s1=s.resample('D').sum().to_period('D')
print(s1)

import pandas as pd
s=pd.date_range(start='2022-01-01',periods=10,freq='W')
k=pd.DataFrame(s)
print(k)
#            0
# 0 2022-01-02
# 1 2022-01-09
# 2 2022-01-16
# 3 2022-01-23
# 4 2022-01-30
# 5 2022-02-06
# 6 2022-02-13
# 7 2022-02-20
# 8 2022-02-27
# 9 2022-03-06

import pandas as pd
s=pd.date_range(start='2022-1-1',periods=9,freq='T')
a=pd.Series(data=range(9),index=s)
print(a)
print('--------------------------------------产生3分钟的序列')
a=a.resample(rule='3T').sum()
print(a)

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

a d p

Series对象

●创建Series对象

●Series的索引

DataFrame对象

●创建DataFrame对象

DataFrame对象的一些重要属性

DataFrame对象的一些重要方法

导入外部数据

导入.xIs或.xIsx文件

导入html网页数据

数据提取loc和iloc的使用

数据提取按行

数据提取按列

提取区域数据

筛选指定条件数据

数据的增加修改和删除

数据增加

数据修改(内容和索引的修改)

删除数据drop()

数据清洗（缺失值和重复值的处理）

查看缺失值以及判断缺失值

缺失值的处理方式

重复值处理

索引设置

重新设置索引

设置某列为行索引

●数据清洗后重新设置连续索引

数据的排序和排名

数据的排序sort_values()方法

数据的排名 rank()

数据的计算（求和方差等）

数据格式化

设置小数位数

设置千位分隔符

设置百分比

apply() applymap() map() 区别

数据分组统计分析groupby()

分组数据的迭代

对分组的某列或多列使用聚合函数

通过字典和Series对象进行分组统计

数据移位 .shift()

数据转换

一列数据转换为多列数据

行列转换

DataFrame转换为字典、列表和元组

数据合并

merge()

merge方法一对一合并

左连接

右连接

内连接 外连接

多对多或者多对一合并

concat()

纵向合并

横向合并

数据导出

导出数据为Excel文件

导出数据为CSV文件

日期数据处理

日期数据转换

dt对象的使用

获取日期区间数据

按时期统计并显示数据

按时期统计数据 df.resample()

按时期显示数据 df.to_period()

先统计后显示

时间序列 pandas.date_range()

时间序列重采样

时间序列数据汇总 resample().ohlc()

移动窗口数据计算 df.rolling()

相关文章

发表回复 取消回复

Serie s 对象

●Serie s的索引

导入.xIs或.xIsx 文件

导入html 网页数据

数据提取 loc和iloc的使用

数据的排序 sort_values()方法

数据分组统计分析 groupby()

内连接外连接

导出数据为Excel 文件

发表回复取消回复