本文介绍: ”’目标:修复数据中异常时间的数据,将异常时间数据统一减少100实现方式:自定义函数1.观察数据找到异常数据所在处:“Yr_Mo_Dy”2.查看“Yr_Mo_Dy”数据类型:datetime643.提取异常的内容:提取日期中的年份4.将提取出来的年份减去1005.将处理好的年份拼接月份和天数的信息:datetime.date()用于拼接年份月份以及天数6.返回处理后的日期(年月日)
一、探索Chipotle快餐数据
1. 将数据集存入一个名为chipo的数据框内
2. 查看前10行内容
3. 数据集中有多少个列(columns)?
4. 打印出全部的列名称
5. 数据集的索引是怎样的?
6. 被下单数最多商品(item)是什么
7. 在item_name这一列中,一共有多少种商品被下单?
8. 一共有多少个商品被下单?
9. 将item_price转换为浮点数
10. 在该数据集对应的时期内,收入(revenue)是多少?
11. 在该数据集对应的时期内,一共有多少订单?
12. 每一单(order)对应的平均总价是多少?
二、探索2012欧洲杯数据(Euro2012.csv)
1. 将数据集存入一个名为euro12的数据框内。
2. 只选取Goals这一列。
3. 有多少球队参与了2012欧洲杯?
4. 该数据集中一共有多少列(columns)?
5. 将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框。
6. 对数据框discipline按照先按Red Cards升序排序再按Yellow Cards降序排序。
7. 计算每个球队拿到的黄牌数的平均值。
8. 找到进球数Goals超过6的球队数据。
9. 选取以字母G开头的球队数据。
10. 选取前7列。
11. 选取除了最后3列之外的全部列。
12. 找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(ShootingAccuracy)。
三、探索酒类消费数据(drinks.csv)
1. 将数据框命名为drinks
2. 哪个大陆(continent)平均消耗的啤酒(beer)更多?
3. 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值。
4. 打印出每个大陆每种酒类别的消耗平均值。
5. 打印出每个大陆每种酒类别的消耗中位数。
6. 打印出每个大陆对spirit饮品消耗的平均值,最大值和最小值。
四、探索1960 – 2014美国犯罪数据(US_Crime_Rates_1960_2014.csv)
1. 将数据框命名为crime。
2. 每一列(column)的数据类型是什么样的?
3. 将Year的数据类型转换为datetime64。
4. 将列Year设置为数据框的索引。
5. 删除名为Total的列。
6. 按照Year(每十年)对数据框进行分组并求和。
7. 何时是美国历史上生存最危险的年代?
五、探索虚拟姓名数据
1. 创建字典数据
2. 将题1中的字典转为DataFrame,并分别命名为data1, data2, data3
3. 将data1和data2两个数据框按照行的维度进行合并,命名为all_data
4. 将data1和data2两个数据框按照列的维度进行合并,命名为all_data_col
5. 按照subject_id的值对all_data和data3作合并
6. 对data1和data2按照subject_id作连接
六、探索风速数据(wind.csv)
1. 读取wind.csv数据并赋值给wind,数据前三列转换为时间格式。
2. 探索数据,并自定义一个函数修复数据中异常时间的数据(异常时间数据统一减少100)。
3. 将日期设为索引
4. 查看每个location(一列表示一个地方)数据中各有多少个数据值缺失?
5. 查看每个location中各有多少非空数据值?
6. 计算观测期间每个location风速的平均值。
7. 创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值,最大值,平均值和标准差。
8. 创建一个名为day_stats的数据框去计算并存储所有location的风速最小值,最大值,平均值和标准差。
9. 对于每一个location,计算一月份的平均风速。
10. 对于数据记录按照年为频率取样。
11. 对于数据记录按照每月第一天为频率取样。
七、探索Apple公司股价数据(appl_1980_2014.csv)
1. 读取数据并存为一个名叫apple的数据框。
2. 查看每一列的数据类型。
3. 将Date这个列转换为datetime类型。
4. 将Date设置为索引。
5. 有重复的日期吗?
6. 将index设置为升序。
7. 找到每个月的最后一个交易日(businessday)。
8. 数据集中最早的日期和最晚的日期相差多少天?
9. 在数据中一共有多少个月?
八、探索Iris纸鸢花数据(iris.csv)
1. 将数据集存成变量iris创建数据框的列名称[‘sepal_length’, ‘sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]
2. 数据框中有缺失值吗?
3. 将列petal_length的第10到19行设置为缺失值。
4. 将petal_length缺失值全部替换为1.0。
5. 删除列class。
6. 将数据框前三行设置为缺失值。
7. 删除有缺失值的行。
8. 重新设置索引。
九、招聘数据探索与分析(job_info.csv)
1. 读取数据并存为一个名叫job_info的数据框。
2. 简单的数据探索。
3. 将列命名为:[‘公司’, ‘岗位’, ‘工作地点’, ‘工资’, ‘发布日期’]。
4. 哪个岗位招聘需求最多?
5. 取出9月3日发布的招聘信息。
6. 处理工作地点这一列,保留数据中省份或直辖市信息。
7. 找出工作地点在深圳、广州、北京、上海的数据分析师招聘信息。
8. 取出每个岗位的最低工资与最高工资,单位为“元/月”,若招聘信息中无工资数据则无需处理。(如2-2.5万/月,则最低工资为20000,最高工资为25000。)
9. 新增一列薪资等级,把工资分为三个等级(‘高薪’,‘中等薪资’,‘低薪’),划分依据自定,言之有理即可。
10. 把处理里后的数据保存到本地路径中,文件命名为job_data(处理后).csv
数据:
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。