原创/朱季谦
在日常工作当中,经常遇到基于Spark去读取存储在HDFS中的批量文件数据进行统计分析的案例,这些文件一般以csv或者txt文件格式存在。例如,存在这样一份消费者行为数据,字段包括消费者姓名,年龄,性别,月薪,消费偏好,消费领域,购物平台,支付方式,单次购买商品数量,优惠券获取情况,购物动机。
针对这些需求,就可以使用Spark来读取文件后,进一步分析处理统计。
一、统计消费者支付方式偏好分布
二、统计购物平台偏好分布
三、统计购物偏好方式分布
四、统计购物动机分布
五、消费者年龄分布
六、统计年龄分布
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。