python数据分析的实战篇,围绕实例的数据展开分析,通过数据操作案例来了解数据分析中的频繁用到的知识内容。
抖音用户数据分析
1.理解数据
数据字段含义
了解数据内容,确保数据来源是正常的,安全合法的。理解一下每一个字段的含义,A列是序号ID,不连续,没有多大的意义可以删除掉;B列uid为看视频的用户id;C列user_city为用户所在的城市,用数字来代替;D列为intem_id为作品的ID;E列author_id为发布作品的作者ID;F列item_city为发布视频作者所在的城市;G列channel为观看视频的来源,现在视频的来源不光是在APP上,在其他网站或者视频上都能有视频的推送;H列finish为是否完整浏览了视频作品;I列like为是否为作品点赞;J列music_id为使用的音乐;K列duration_time为作品的时长;L列real_time为作品真实发布的时间;M列H为当前的时间,具体到小时;N列date为发布的日前。
常用的代码 可以直接复制使用
导入数据的时候,数据内容比较多,超出excel或者wps文件的范围时,打开数据就会有缺失。在数据处理的时候,如果处理的数据是几百条到万以内的,excel和wps可以进行相应的操作;分析的数据级别是几千到几十万,超出了excel和wps的表格范围,数据不能正常的显示,所以就要用pandas进行分析;如果数据是以亿级别的,就要用到大数据分析。
导入数据之后,对数据进行预览,可以看到有100多万条数据,之前的查看信息会显示有数据的数量,如果数据没有缺失值的话,就不再显示数据的数量。可以用describe来统计表中数值的信息,查看有无异常数值,如果表中数据为字符串则不显示。
2.数据处理
数据处理,在机器学习中成为数据清洗和特征工程。在探索性的数据分析(EDA)中,用不到算法的话,只需要做数据相应的处理,包含了数据的清洗。
如果对表格的原数据进行更改,可以在参数里增加inplace=True;如果不再原数据上进行更改,可以把更改的内容重新赋值为原数据的变量名。
3.分析数据
通过可视化的手段,利用图表来对数据进行分析。在探索型的数据分析(EDA)中经常用可视化来完成,利用图表展示;在验证性的数据分析中,要利用统计学的知识做假设校验,运用算法进行预测,建立模型。
画图之前要先把需要的x轴和y轴的数据准备好。分析日播放量、日用户量、日作者量、日作品量跟时间有关系,x轴为时间,y轴是播放、用户、作者、作品的信息,可以通过日期进行分组来进行计算。
作品数量top50中,数量与播放率、点赞率之间之间的关系;
4.结论
4.1分析日播放量、日用户量、日作者量、日作品量跟时间有关系
日播放量、日用户量、日作者量、日作品量随时间的变化保持一样的变化趋势,前期都平稳增长,从10-20到10-29日,出现了剧烈增长,随后又出现了下降的趋势,可能是这个期间平台进行活动,吸引用户去发布作品和观看作品,作品量,作者量,作者量在这个时间内都会出现巨幅增长,活动结束用户就回归到正常的水平。