python学习——pandas库的使用之series及DataFrame创建、查看、切片、运算

本文介绍: Se r ie s与Da t aFram e的创建、索引、切片及运算

在这里插入图片描述

from pandas import Series,DataFrame
s=Series([1,2,3,4],index=['a','b','c','d']) #指定索引，显式索引
#索引，获取单个值
s['b']
s.b
s.get('b')
s[1]

在这里插入图片描述

s=Series([3,4,5,6],index=['a','a','b','b']) #索引可以重复，但是尽量不要这样做
s

在这里插入图片描述

切片不会改变序列数据类型

在这里插入图片描述

s1=Series(5,index=['a','b','c','d']) #标量，自动重复以匹配索引长度
s1

s1=Series(np.arange(1,5),index=['a','b','c','d']) #数组
s1

dict1={'a':1,'b':3,'c':5,'d':8}
s1=Series(dict1)  #不指定索引，默认以字典的key作为索引，字典值作为值
s1

ser2.name  #名字
ser2.values	#数据
ser2.index  #索引  
ser2.dtype 	 #series的数据类型

data1=[[1, 2, 3],[4, 5, 6],[7, 8, 9]] #二维列表创建,二维元组
d1=DataFrame(data1) #默认行索引和列索引
d1

d1.index=['a','b','c']    #创建dataframe后添加行索引和列索引
d1.columns=['one','two','three']
d1

data1=[[1, 2, 3],[4, 5, 6],[7, 8, 9]] #二维列表创建,二维元组
d1=DataFrame(data1,index=['a','b','c'],columns=['one','two','three'])#创建的时候加上行索引和列索引
d1

df2=DataFrame(np.arange(16).reshape(4,4)) #数组转换为dataframe
df2

data1={'a':[1,2,3],'b':[4,5,6]} #把key抽出形成columns
DataFrame(data1)

dist_dict={'shanghai':{2015:10,2016:11,2018:12},'beijing':{2015:102,2016:103,2017:109}}
DataFrame(dist_dict)  #外层的key形成columns，里层的key成为index

data = [{'a': 1, 'b': 2,'d':3}, {'a': 10, 'b': 20, 'c': 30}]
DataFrame(data)

data2 = [Series([1, 2],index=['a','b']),Series([1,2],index=['a','c'])]
DataFrame(data2)

	二维列表	二维数组	矩阵	dataframe
二维列表 L	–	np.array(L)	np.mat(L)	pd.DataFrame(L)
二维数组 a	a.to list()	–	np.mat(a)	pd.DataFrame(a)
矩阵 m	m.to list()	np.array(m)	–	pd.DataFrame(m)
dataframe	df.values.tolist()	df.values	np.mat(df.values)	–

filepath_or_buffer: 文件,
		sep=',', 数据分隔符
		delimiter=None, 同上
		header='infer', 表头/列名 ,默认,用数据的第一行作为列名. None就是不用数据列名
		names=None, 列名
		index_col=None, 用哪一列作为行索引

data1=[[1, 2, 3],[4, 5, 6],[7, 8, 9]] #二维列表创建,二维元组
d1=DataFrame(data1,index=['a','b','c'],columns=['one','two','three']) #创建的时候加上行索引和列索引
d1

#写
d1.to_csv('d1.csv',sep=',', header=True)   #写入csv,带header，sep指定分割符，一般使用','
#读
pd.read_csv('d1.csv',index_col=0) #将第0列设置为索引
-----------------------------------------------------------------------
#写
d1.to_csv('d2.csv',sep=',', header=False) #写入csv,不带header
#读
pd.read_csv('d2.csv',index_col=0,names=['one','two','three']) #names参数增加列名(在读的时候列名用names)

#写到excel中的某个表格
d1.to_excel('d1.xlsx',sheet_name='d1_sheet') 
#读取excel中的某个表格
pd.read_excel('d1.xlsx',sheet_name='d1_sheet',index_col=0)

#写到多个表格，上下文管理语句
with pd.ExcelWriter('output.xlsx') as writer:
    d1.to_excel(writer, sheet_name='d1')
    d2.to_excel(writer, sheet_name='iris')

df1=pd.read_html('http://www网址')

pd.read_clipboard() #从粘贴板读取数据

df.sample(frac=0.2, replace=True, weights=df1.列名, random_state=0)   #抽取20%的数据；可放回；权重（有多少条数据就应该有多少个数进行对应）；随机数种子

df[:1] #选择第一行，默认的索引选择行

df['列名'] #选出的是序列
df.列名 #选出的是序列
df[['列名']] #选择一列，dataframe
df[['列名1','列名2']] #选择多列

df.loc[ 行标签信息，列标签信息 ]#行列标签注意带有引号
 #如果只对列有要求，行信息不可以省略，用冒号表示全部都要

df.iloc[行位置信息，列位置信息]
df1.iloc[1:3,0:2] #两部分参数，对行的需求和对列的需求
df1.iloc[1:3]#如果只对行有要求，列信息可以省略
df1.iloc[:,[2,4]] #如果只对列有要求，行信息不可以省略，用冒号表示全部都要

参数:
		index：修改行索引
		columns：修改列索引
		也可以支持函数,或者是字典映射

df.loc['index名'] = 数据 #数据长度要一致

df['列名'] = 数据
df.insert(序号,'列名',数据)

#删除 要不是index 就是columns
df.drop('index名',axis=0)  #删除行，默认情况，axis=0，新生成操作
df.drop('列名',axis=1) #删除列
drop  #删除列/行
		df.drop(index=[1,2])  #删除行
		df.drop(columns=["列名"])  #删除列
del df['列名']  #直接在原数据中删除该列
df.pop("列名")  #弹出删除列

#dataframe的运算，索引自动对齐，行索引对齐，列索引对齐，不足的部分引入缺失值
df1 = DataFrame([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]],
    index=['a','c','b'],columns=['one','two','three'])

df2 = DataFrame(np.arange(0,16).reshape(4,4),
    index=['a','b','c','d'],columns=['one','two','three','four'])
df1+df2  #直接相加

df1.add(df2,fill_value=0) #调用方法,对有缺失的数据进行填充，填充完再进行相加

apply：针对行和列操作，可以对dataframe，可以对序列
map：对序列中的单个元素进行操作
applymap：对dataframe中的单个元素进行操作

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

series 切片

1 Series（序列）

1.1 基本概念

1.1.1 索引 ser[‘a’]、ser.a、ser[0]、ser.get(‘a’)

1.1.2 切片

1.1.2.1 基于标签切片的时候，切片区间全闭

1.1.2.2 基于位置的切片语法 切片区间左闭右开

1.1.3 选择和过滤

1.1.3.1 直接通过Series进行比较

1.1.3.2 通过Series.index 或者 Series.values进行比较

1.2 序列创建

1.2.1 列表，元组(一维)

1.2.2 标量

1.2.3 数组

1.2.4 字典

1.3 序列、索引名字及属性

1.3.1 序列的名字和索引名字

1.3.2 序列的属性

1.4 序列的运算

1.4.1 序列运算保留索引

1.4.2 序列运算，索引自动对齐

2 DataFrame

2.1 构建DataFrame

2.1.1 二维列表创建

通过二维列表，二维元组直接创建，默认行列索引

创建dataframe后添加行索引和列索引

创建dataframe的时候加上行索引和列索引

2.1.2 二维数组创建

创建dataframe时，默认行列索引

创建dataframe时，添加行列索引名

2.1.3 等长列表、 元组、 数组、 序列组成的字典创建

等长列表组成的字典

等长元组组成的字典

等长数组组成的字典

等长序列组成的字典

2.1.4 字典组成的字典创建

2.1.5 字典的列表创建

2.1.6 Series 创建DataFrame

2.2 二维结构数据转换

2.2.1 二维列表转其他

2.2.2 二维数组转其他

2.2.3 矩阵转其他

2.2.4 dataframe转其他

2.3 数据的读写

2.3.1 读写csv文件

2.3.2 读写excel文件

2.3.3 读html文件

2.3.4 读粘贴板数据

2.4 数据的查看

df.head() #默认前5行，想查看前几行，括号中写几

df.tail() #默认尾部5行，想查看尾部几行，括号中写几

df.sample(n = 4) #随机的抽取，n = 4随机抽取4行

df.shape #形状

df.dtypes #查看数据类型

df.isnull() #缺失值

df.info() #详细信息

df.index 行索引

df.columns 列名

2.5 索引和切片

2.5.1 行的选择

隐式索引，默认的索引选择行

显示索引，选取索引名

2.5.2 列的选择

2.5.3 行，列的选择：loc方式 显式

2.5.4 行，列的选择：iloc方式 隐式

2.5.5 过滤

选择满足条件的行

选择满足条件的列

选择满足条件的行和列

2.5.6 索引设置

将某列设置为索引:set_index

恢复默认索引:reset_index

创建一个适应新索引的新对象：reindex

2.5.7 修改索引/列名

2.6 dataframe的增加和删除

2.6.1 新增行

2.6.2 新增列

2.6.3 删除行或列

2.7 算术运算和对齐

2.7.1 dataframe之间相加

2.7.2 dataframe和数相加,每一个元素都进行操作

1.1.2.2 基于位置的切片语法切片区间左闭右开

创建 dataframe后添加行索引和列索引

创建 dataframe的时候加上行索引和列索引

2.1.3 等长列表、元组、数组、序列组成的字典创建

2.3.1 读写 csv 文件

2.3.2 读写excel 文件

2.3.3 读html 文件

2.5.3 行，列的选择：loc 方式显式

2.5.4 行，列的选择：iloc 方式隐式

2.7.3 映射：apply,map,ap plymap

2.7.3.1 ap ply：针对行和列操作，可以对dataframe，可以对序列

发表回复取消回复