1、使用read_csv函数读取“某地区房屋销售数据.csv”文件,创建DataFrame对象housesale
import numpy as np
import pandas as pd
使用read_csv()函数读取文件,指定路径。在这里可能会报错,将文件用记事本打开,看左下角的编码,通过encoding指定编码格式。
housesale=pd.read_csv('D:\Jupyter\第三章\tmp\某地区房屋销售数据.csv',encoding='ANSI')
housesale
使用head()函数,loc和iloc切片的方式获得前五行数据,注意的是,loc传入的是行索引名或列索引名,iloc传入的是索引的位置;
housesale.head()
housesale.loc[:4,]
housesale.iloc[0:5]
3、使用三种方式查看housesale中地区邮编、房屋类型两列数据
housesale.loc[:,['地区邮编','房屋类型']]
housesale.iloc[:,[1,3]]
housesale[['地区邮编','房屋类型']]
4、使用ndim、shape、columns属性分别查看数据的维度、形状以及所有特征名称
housesale.ndim
housesale.shape
housesale.columns
5、使用loc()方法对房屋类型为单身公寓(unit)的数据进行查询
housesale.loc[housesale['房屋类型']=='unit']
6、使用groupby()方法和get_group()方法对房屋类型为单身公寓(unit)的数据进行查询
group=housesale.groupby(by='房屋类型')
group.get_group('unit')
housesale["房屋出售时间"]=pd.to_datetime(housesale["房屋出售时间"])
housesale.dtypes
housesale["房屋出售时间"].dt.year
9、使用mean、max、min、mode函数分别计算该地区房屋价格的均值、最大值、最小值和众数
housesale.agg('mean').loc['房屋价格']
housesale.agg('max').loc['房屋价格']
housesale.agg('min').loc['房屋价格']
housesale.mode().loc[:,'房屋价格']
10、使用describe()方法计算房屋价格数据的非空值数目、均值等统计量
housesale['房屋价格'].describe()
11、使用apply()方法提取地区邮编特征中数据的前两位,如提取“2615”中的“26”,并新增new_postcode特征存储提取的内容
housesale['new_postcode']=housesale['地区邮编'].apply(lambda x :str(x)[0:2])
housesale
12、根据新地区邮编new_postcode进行分组,使用count函数计算出每个地区的房屋售出总数
group['new_postcode'].agg('count')
13、根据房屋类型进行分组,使用agg()方法计算分组数据中房屋价格均值
housesalegroup=housesale.groupby(by='房屋类型')
housesalegroup.agg({'房屋价格':'mean'})
14、根据房屋类型进行分组,使用transform()方法计算分组数据中房屋价格均值
housesalegroup['房屋价格'].transform('mean')
15、获取不同的房屋类型中售价最高的房屋销售信息,导出到当前文件夹下,文件名为“姓名+学号.csv”,例如:张三2021001.csv
housesalegroup.agg({'房屋价格':'max'}).to_csv("D:\Jupyter\第三章\tmp\xm.csv",sep=':')
原文地址:https://blog.csdn.net/weixin_63580983/article/details/127709353
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_23670.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!