pandas基础学习_代码007(未授权)

本文介绍: pandas是python中专门专门用于数据处理和数据分析的第三方库

pandas是python中专门专门用于数据处理和数据分析的第三方库。
pandas常用的基本功能如下：

pandas提供了Se r ie s和Da t aFram e作为数组数据的存储框架，数据进入这两种框架后，就可以用他们提供的强大的处理方法进行数据处理。

Se r ies（系列、数列、序列）是一个带有标签的一维数组，是由一组数据以及与这组数据有关的标签（索引）组成，Se r ies对象可以存储整数、浮点数、字符串、Py th on 对象等多种数据类型的数据，是pandas最基础的数据结构。各国的GDP就是一个典型的数据结构，如：中国 14.34 ，其中，国家是标签（也称索引），不是具体的数据，起到解释、定位数据的作用。

语法结构：pd.Seri es(data,index=in de x)

#series对象的创建
import pandas as pd
data=[13.14,21.34,5.08,10.18]
index=['中国','美国','意大利','俄罗斯']
s=pd.Series(data=data,index=index)
print(s)

中国 13.14
美国 21.34
意大利 5.08
俄罗斯 10.18
dtype: float64

位置索引，范围为[0,N-1]

#位置索引
data=[13.14,21.34,5.08,10.18]
s=pd.Series(data=data)
print(s)
print(s[2])#s[2]---获取位置索引为2的值

data=[13.14,21.34,5.08,10.18]
index=['中国','美国','意大利','俄罗斯']
s=pd.Series(data=data,index=index)
print(s)
print(s['中国'])#中国，为标签索引
print(s[['中国','俄罗斯']])#获取多个数据

data=[13.14,21.34,5.08,10.18]
index=['中国','美国','意大利','俄罗斯']
s=pd.Series(data=data,index=index)
print(s[0:2:2])#位置索引切片，含投不含尾
print(s['中国':'意大利':2])#标签索引切片，含头含尾

data=[13.14,21.34,5.08,10.18]
index=['中国','美国','意大利','俄罗斯']
s=pd.Series(data=data,index=index)
print(s.index)
print(list(s.index))#通常将索引转换成列表输出
print(s.values)

#创建方式一：列表方式创建DataFrame对象
data=[['小太阳',320.9,100],['鼠标',150.3,50],['小刀',1.5,200]]
column=['名称','单价','数量']
df=pd.DataFrame(data=data,columns=column)
print(df)
print(type(df))

名称     单价   数量

#创建方式二：字典方式创建DataFrame对象
ata={'名称':['小太阳','鼠标','小刀'],
     '单价':[320.9,150.3,1.5],
     '数量':[100,50,200]}
f=pd.DataFrame(data=data)
print(df)
print(type(df))

属性	描述
values	查看所有元素的值
dtypes	查看所有元素的类型
index	查看所有行名、重命名行名
columns	查看所有列名、重命名列名
T	行列数据转换
head	查看前N条数据，默认5条
tail	查看后N条数据，默认5条
shape	查看行数和列数shape[0]表示行,shape[1]表示列
info	查看索引、数据类型和内存信息

#values——查看所有元素的值
data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('查看所有值n',df.values)

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看所有元素的类型n', df.dtypes)

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看所有行名称n',list(df. index))
print('------------')
df.index=[1,2,3]#修改行名称
print ('修改行名称后的dfn',df)

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看列索引n', df.columns)
print('------------')
df.columns=['国家','商品数量','GDP']
print('查看列名称该后的dfn',df)

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=df.T
print('转置后的dfn',df)

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看前2条数据n',df.head(2))
print('------------')
print('查看后1条数据n',df.tail(2))
print('------------')
print('查看行数和列数n','行',df.shape[0],'  列',df.shape[1])

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看索引，数据类型，内存信息n',df.info)

属性	描述
des cri be()	查看每列的统计汇总信息,DataFrame类型
count()	返回每一列的非空值的个数
sum()	返回每一列的和，无法计算返回空值
max()	返回每一列的最大值
min()	返回每一列的最小值

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看每列的统计汇总信息n', df.describe())

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('查看每列的统计汇总信息n', df.describe())
print('------------')
print('返回每一列的非空值的个数n',df.count())

data=[['中国',1400,21],['美国',7000,25],['俄罗斯',1000,18]]
column=['国家','数量','GDP']
df=pd.DataFrame(data=data,columns=column)
print(df)
print('------------')
print('返回每一列的和，无法计算返回空值n',df.sum())
print('------------')
print('返回每一列的最大值n',df.max())
print('------------')
print('返回每一列的最小值n',df.min())

值	说明
sheet_name=0	第一个Sheet页中的数据作为DataFrame对象
sheet_name=1	第二个Sheet页中的数据作为DataFrame对象
sheet_name=‘Sheet1’	名称为’Sheet1’的Sh eet页中的数据作为DataFrame对象
sheet_name=[0,1,‘Sh eet3’]	第一个、第二个和名称为Sh eet3的Sh eet页中的数据作为DataFrame对象
sh eet_name=None	读取所有工作表

#导入Excel数据
data=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(data)

#导入指定列的数据
import pandas as pd
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%' , usecols=['入流','出流','水位'])
print (df)

df=pd.read_csv(r'C:UsersDesktopdata.CSV',sep=',',encoding='gbk')#ANSI默认为gbk
pd.set_option('display.unicode.east_asian_width',True)#规则格式
print(df)

#导入HTML
url='http://www.espn.com/nba/salaries'
df=pd.DataFrame()#创建一个空的DataFrame对象

#DataFrame添加数据
df=df.append(pd.read_html(url,header=0))
print (df)

#将数据保存
df.to_csv('nba球员薪水',index=False)#index=False表示保存时不要索引,保存位置与该编码文件在同一个目录

data=[[45,65,200],[56,45,50],[67,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print (df)
print('----------')
#提取单行数据
print('loc提取行数据n',df.loc['李四'])
print('----------')
print('loc提取行数据n',df.iloc[1])

data=[[45,65,200],[56,45,50],[67,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)
print (df)
print('----------')

#提取多行数据
print('loc提取多行数据n',df.loc[['张三','王五']])
print('----------')
print('loc提取多行数据n',df.iloc[[0,2]])

data=[[45,65,200],[56,45,50],[67,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)
print (df)
print('----------')

#提取多行数据
print('loc提取连续多行数据n',df.loc['张三':'王五'])#含头含尾
print('----------')
print('loc提取连续多行数据n',df.iloc[0:2])#含头不含尾

data=[[45,65,200],[56,45,50],[67,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print (df)
print('----------')
print('直接提取n',df[['数学','英语']])#直接提取
print('----------')
#提取多行数据
print('loc提取列数据n',df.loc[:,['数学','英语']])#含头含尾
print('----------')
print('iloc提取连续多列数据n',df.iloc[:,1:])#含头不含尾

data=[[45,65,200],[56,45,50],[67,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('----------')
print('李四的数学与英语成绩n',df.loc['李四',['数学','英语']])
print('----------')
print('张三与王五的语文成绩n',df.iloc[[0,2],[1]])

data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('----------')
print('提取数学成绩及格的数据n',df.loc[df['数学']>=60])
print('----------')
print('提取数学和语文成绩都及格的数据n',df.loc[(df['数学']>=60)&amp;(df['语文']>=60)])

data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('----------')
df['物理']=[67,89,94]
print('直接采用赋值的方式在最后增加一列n',df)
print('----------')
df.loc[:,'化学']=[76,83,95]
print('用col属性在最后增加一列n',df)

#在指定索引处插入列数据
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('----------')
lst=[67,89,94]
df.insert(2,'物理',lst)
print('在索引为2处增加一列n',df)

#按行增加数据
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('----------')
df.loc['陈六']=[56,64,71]
print('在最后增加一行数据n',df)

#合并两个DataFrame对象
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张时','李阿','王明']
columns=['数学','语文','英语']
df1=pd.DataFrame(data=data,index=index,columns=columns)

df=df.append(df1)#需要赋值，赋值看不到拼接效果
print(df)

#修改行标题
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('------------')
df.columns=['数学(上)','语文(上)','英语(上)']
print('直接修改：n',df)
print('------------')
df.rename(columns={'数学(上)':'math','语文(上)':'chinese','英语(上)':'english'},inplace=True)
print('用rename方法：n',df)

data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('------------')
df.index=['张时','李阿','王明']
print('直接修改：n',df)
print('------------')
df.rename({'张时':'zhangshi','李阿':'lia','王明':'wangming'},inplace=True,axis=0)
print('用rename方法：n',df)

#修改数据
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('--------------')
df.loc['张三']=[100,100,90]#修改一整行
print ('修改一整行数据n',df)
print('--------------')
df.iloc[0,:]=[90,90,90]#修改第0行的所有列
print('修改一整行数据n',df)
print('--------------')
df.iloc[1,1]=78#修改第0行的所有列
print('修改单个数据n',df)

#删除列数据
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('--------------')
df1=df.drop(['数学'],axis=1,inplace=False)
print(df1)
print('--------------')
df2=df.drop(columns='数学', inplace=False)
print(df2)
print('--------------')
df.drop(labels='数学', axis=1,inplace=True)
print(df)

#删除行数据
data=[[75,56,80],[56,45,50],[60,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('--------------')
df1=df.drop(['张三'],axis=0,inplace=False)
print(df1)
print('--------------')
df2=df.drop(index='张三', inplace=False)
print(df2)
print('--------------')
df.drop(labels='张三', axis=0,inplace=True)
print(df)

#删除指定条件的数据
data=[[75,56,80],[56,45,50],[50,67,67]]
index=['张三','李四','王五']
columns=['数学','语文','英语']
df=pd.DataFrame(data=data,index=index,columns=columns)

print(df)
print('--------------')
df.drop(df[df['数学']<60].index[:], inplace=True)
print('删除数学成绩小于60的数据n',df)

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
print(df.info())

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
print(df.isnull())
print('-----------------------------------')
print(df.notnull())

#删除缺失值
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
df=df.dropna()
print(df)

#提取指定不为null的数据
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
print('提取出流不为null的数据n',df[df['出流'].notnull()])

#填充数据
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
df['出流']=df['出流'].fillna(0)
print('用0填充后的数据n',df)

#删除全部重复的数据
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
print('判断是否存在重复值n',df.duplicated())
print('-----------------------------------')
df=df.drop_duplicates()
print('删除全部重复的数据n',df)

#删除指定列重复的数据
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%',header=0)
print(df)
print('-----------------------------------')
print('判断是否存在重复值n',df.duplicated('水位'))
print('-----------------------------------')
df=df.drop_duplicates(['水位'],keep='last')
print('删除指定列重复的数据，保留重复行的最后一行n',df)

语法结构：**df.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)**

#重新设置索引
import pandas as pd
df=pd.Series([55,15,32],index=[1,2,3])
print(df)

#重设置设置索引
print ('重设置设置索引后的数据n',df.reindex(range(1,6)))
print('NaN值使用33进行填充后的数据n',df.reindex (range(1,6),fill_value=33))

#设置指定列为行索引
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df=df.set_index(['时间'])
print ('设置时间一列为索引n',df)

#数据清洗后重新设置连续索引
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df=df.dropna().reset_index()
print('数据清洗后重新设置连续索引的数据n',df)

#排序后的数据
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df=df.sort_values(by='出流')
print('排序后的数据n',df)

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df=df.sort_values(by=['入流','出流'])#靠后的优先
print('根据多列排序后的数据n',df)

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df=df.sort_values(by='出流')
df['出流量排名']=df['出流'].rank(method='min',ascending=False)
print('根据出流量排名后的数据n',df)

函数	说明
求和：sum([axis,skipna])	axis=1表示按行加，axis=0表示按列加，默认列加skipna=1表示将NaN转0, skipna=0表示不转
求均值：mean([axis,skipna])
最大值：max([axis,skipna])
最小值：min([axis,skipna])
中位数：media(axis=None,skipna=None)	axis=1表示行, axis=0表示列，默认为None；skipna布尔值，表示计算结果是否排除了NaN/Null,默认为True
求众数：mode(axis=0,dropna=True)	axis=1表示行, axis=0表示列，默认值为0，dropna是否删除缺失值，布尔型，默认为True
求方差：var(axis=None,skipna=None)
标准差：std(axis=None,skipna=None)
分位数：quantile(q=0.5,axis=0, numeric_only=True)	numeric_only的值为False，将计算日期、时间和时增量数据的分位数

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df.loc['平均数']=df.loc[1:].mean()
print('平均数n',df)

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
print('保留三位小数n',df.round(3))#对所有数据都有作用

#指定列保留小数——用字典
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
print('指定列保留小数n',df.round({'入流':0,'出流':3,'水位':3}))

#指定列保留小数——用Series
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
S=pd.Series([0,3,3],index=['入流','出流','水位'])
print('指定列保留小数n',df.round(S))

#指定列保留小数——用自定义函数
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df=df.applymap(lambda x:'{:.3f}'.format (x))
print('指定列保留小数n',df)

#设置百分比——对列起作用，apply函数
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df['百分比']=df['出流'].apply(lambda x:format(x,'.0%'))
print (df)

#设置百分比——对列起作用,map函数
df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df['百分比']=df['出流'].map(lambda x:format(x,'.0%'))
print(df)

df=pd.read_excel(r'C:UsersDesktopdata.xlsx',sheet_name='1%')
print(df)
print('-----------------------------------')
df['入流']=df['入流'].apply(lambda x:format(int(x),','))
print (df)

s=pd.Series (data=[ 1,2,3,4],index=['a','b', 'c','d'])
print (s)
print (' --------------------------')
s=s.apply(lambda x:x*10)
print('apply()可以在series，对Series的每一个元素都执行一次函数n',s)

df=pd.DataFrame(data=[[10,20,30,40],[11, 22,33,44]],index=['a','b'], columns=['A','B','C','D'])
print (' --------------------------')
print(df)
df=df.apply(lambda x:x.sum(),axis=0)
print (' --------------------------')
print('apply对DataFrame中的某一行或某一列的每个元素执行一次函数n',df)

df=pd.DataFrame(data=[['男'],['女'],['男'],['女']], index=['张三','李姐','王五','陈妹'],columns=['性别'])
print(df)

def gender(g) :
    if g=='男':
        return 0
    else:
        return 1

df2=df['性别'].map(gender)
print('-----------------')
print('map的参数是一个函数n',df2)
print('-----------------')
df3=df['性别'].map({'男':0,'女':1})
print('map的参数是字典n',df3)

df=pd.DataFrame(data=[[10,20,30,40],[11, 22,33,44]],index=['a','b'], columns=['A','B','C','D'])
print (' --------------------------')
print(df)
df=df.applymap(lambda x:x*10)
print (' --------------------------')
print('applymap()将函数应用到DataFrame中的每一个元素中n',df)

#按照一列分组统计
pd.set_option('display.unicode.east_asian_width',True)#规则格式

df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
df1=df[['产品名称','数量','标准单价']]
print('对数量，标准单价都进行求和统计n',df1.groupby('产品名称').sum())

#按照多列分组统计
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')

print(df)
print('-------------------')
df1=df[['产品名称','销售员','数量','标准单价']]
df1=df1.groupby(['产品名称','销售员']).sum()
print('对数量，标准单价都进行求和统计n',df1)

#按照指定列分组计算
pd.set_option('display.unicode.east_asian_width',True)#规则格式

df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
df1=df[['产品名称','数量','标准单价']]
print('只对数量进行求和统计n',df1.groupby('产品名称')['数量'].sum())

#分组数据的迭代
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
df1=df[['产品名称','数量','标准单价']]
print('分组之后的数据类型为DataFrameGroupByn',df1.groupby('产品名称'))
print('-------------------')
for name,group in df1.groupby('产品名称'):
    print(name,group)

#按照多列分组,数据迭代
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
df1=df[['产品名称','销售员','数量']]
print('分组之后的数据类型为DataFrameGroupByn',df1)
print('--------------------')
for (name1,name2),group in df1.groupby(['产品名称','销售员']):
    print(name1,name2)
    print(group)
    print('-----------------------')

#单列聚合函数
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
df1=df[['产品名称','数量']]
print('使用聚合函数后的数据n',df1.groupby('产品名称').agg(['sum','mean']))

#不同列使用不同聚合函数
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
df1=df[['产品名称','数量','成交金额']]
print('使用聚合函数后的数据n',df1.groupby('产品名称').agg({'数量':['sum','mean'],'成交金额':['max','min']}))

#通过自定义函数对数据进行分组统计
pd.set_option('display.unicode.east_asian_width',True)#规则格式
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
print('-------------------')
print (df['产品名称'].value_counts()) #df['产品名称']为Series
maxcount=lambda x:x.value_counts().index[0] #行索引为0,即为最大的数，value_counts()为降序排序
maxcount.__name__='销量最多的产品'
df1=df.agg({'产品名称':[maxcount],'数量':['max']})
print('-------------------')
print(df1)

#通过字典进行分组统计
pd.set_option('display.unicode.east_asian_width',True) #规则格式
pd.set_option ('display.max_columns',500)
pd.set_option('display.width',1000)
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
df=df.set_index('产品名称')
dic={'南岸':'重庆','江津':'重庆','成都':'四川','泸州':'四川'}
df=df.groupby(dic,axis=1).sum()
print('------------------')
print(df)

#通过Series进行分组统计
pd.set_option('display.unicode.east_asian_width',True) #规则格式
pd.set_option ('display.max_columns',500)
pd.set_option('display.width',1000)
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx')
print(df)
df=df.set_index('产品名称')
dic={'南岸':'重庆','江津':'重庆','成都':'四川','泸州':'四川'}
S=pd.Series(dic)
df=df.groupby(S,axis=1).sum()
print('------------------')
print(df)

data=[532,937,447,765,564]
index=['一月','二月','三月','四月','五月']
df=pd.DataFrame(data=data,index=index, columns=['手机销量'])
print(df)
print('------------------')
df['销量差']=df['手机销量']-df['手机销量'].shift()
print(df)

pd.set_option('display.unicode.east_asian_width',True) #规则格式
pd.set_option ('display.max_columns',500)
pd.set_option('display.width',1000)
df=pd.read_excel(r'C:UsersDesktop数据统计.xlsx',usecols=['客户名','快递地址'])
print(df)
print('-------------------')
df1=df['快递地址'].str.split(' ',expand=True)
df['省']=df1[0]
df['市']=df1[1]
df['区']=df1[2]
print(df)

data={'a':[1,2,3,4,5],
      'b':[(1,2),(2,3),(3,4),(4,5),(5,6)]}
df=pd.DataFrame (data=data)
print(df)
print('----------------')
df[['b1','b2']]=df['b'].apply(pd.Series)
print (df)

data={'a':[1,2,3,4,5],
      'b':[(1,2),(2,3),(3,4),(4,5),(5,6)]}
df=pd.DataFrame (data=data)
print(df)
print('----------------')
#join()与apply()
df=df.join(df['b'].apply (pd.Series))
print (df)