本文介绍: spark面试题,覆盖所有的spark面试重点
1. spark core
1.简述hadoop 和 spark的不同点(为什么spark更快)♥♥♥
shuffle都是需要落盘的,因为在宽依赖中需要将上一个阶段的所有分区数据都准备好,才能进入下一个阶段,那么如果一直将数据放在内存中,是非常耗费资源的
2. 谈谈你对RDD的理解
RDD称为弹性分布式数据集,是spark中最基本的数据处理模型。代码中代表是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。
3. 简述spark的shuffle过程♥♥♥
如果问spark与Mapreduce的shuffle的区别,先说Mapreduce的shuffle,再说spark的shuffle。
spark的shuffle分为两种实现,分别为HashShuffle和Sortshuffle
4. spark的作业运行流程是怎么样的♥♥
重要参数如下:
运行流程如下:
5. spark driver的作用,以及client模式和cluster模式的区别♥
6. 你知道Application、Job、Stage、Task他们之间的关系吗?♥
7. spark常见的算子介绍一下(10个以上)♥♥♥
8. 简述map和mapPartitions的区别♥
9. 你知道重分区的相关算子吗♥
10. spark目前支持哪几种分区策略
11. 简述groupByKey和reduceByKey的区别♥♥♥
12. 简述reduceByKey、foldByKey、aggregateByKey、combineByKey的区别♥
13. 宽依赖和窄依赖之间的区别♥♥
14. spark为什么需要RDD持久化,持久化的方式有哪几种,他们之间的区别是什么♥♥♥
15. 简述spark的容错机制
16.除了RDD,你还了解spark的其他数据结构吗♥♥
17. spark调优♥♥♥
2. spark sql
18. 谈一谈RDD,DataFrame,DataSet的区别♥
19. Hive on spark 与 sparkSql的区别♥
20. sparkSql的三种join实现♥♥♥
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。