Spark面试题集锦_代码007(未授权)

本文介绍: 数据不动代码动的最高境界是数据就在当前节点的内存中。有一点非常重要，就是由于RDD有前后依赖关系，遇到宽依赖关系，例如，遇到reduceBy key等宽依赖操作的算子，Sp ar k将根据宽依赖划分Stag e，Stag e 内部通过Pip e line 操作，通过Block Mana g e r 获取相关的数据，因为具体的split要从外界读数据，也要把具体的计算结果写入外界，所以用了一个管理器，具体的split都会映射成BlockMana ger的Block，而具体split会被函数处理，函数处理的具体形式是以任务的形式进行的。

1、什么是Ap a che Sp ar k？Sp ar k是什么？

是基于内存的分布式的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。包含Spa rk core、Spa rk sql、Spa rk stream in g 、Spa rk MLlib 、spark Gr ap hX五个核心组件。

2、Spa r k的核心组件是什么？

Spa r k Co re：是其它组件的基础，spark的内核，主要包含：有向循环图、RDD、Lingage、Cache、b ro adc ast等，并封装了底层通讯框架，是Spark的基础。实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复，与存储系统交互等模块。还包含了对弹性分布式数据集（Resilient Distribu ted Dataset，简称RDD）的API 定义。
Spark SQL：用于处理结构化数据的模块，支持SQL查询和DataFrame API。是Spark用来操作结构化数据的程序包，可以使用SQL或者HQL来对历史数据做交互式查询（即席查询：用户根据自己的需求自定义查询）。Spark SQL 支持多种数据源，比如Hive表，Parque t 以及 JSON 等。
Spark St reaming：是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kafka、Flume、Twit ter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，将流式计算分解成一系列短小的批处理作业。
MLlib：Spark的机器学习库，提供了常见的机器学习算法和工具。构建在 Spark 之上的提供常见的机器学习（ML）功能的程序库，支持一系列数据挖掘算法。包括分类、回归、聚类、协同过滤，还提供了模型评估、数据导入等额外的支持功能。
Grap hX：Spark的图计算库，用于图处理和分析任务。

3、spark 的资源调度方式？spark的有几种部署模式，每种模式特点？

1）Lo cal（本地模式）：运行在一台计算机上的模式，通常就是用于在本机上练手和测试。
local：只启动一个 executor
local[k]:启动k个executor
local[*]：启动跟cpu 数目相同的 executor
2）Standal one模式：分布式部署集群，自带完整的服务，资源管理和任务监控是Spark自己监控，这个模式也是其他模式的基础。构建一个由Master+Slave 构成的 Spark 集群，Spark 运行在集群中。
3）Spark on yarn模式：分布式部署集群，资源和任务监控交给yarn 管理，但是目前仅支持粗粒度资源分配方式，包含 cluster和client 运行模式，cluster适合生产，driver 运行在集群子节点，具有容错功能，client适合调试，dir ver运行在客户端。
4）Spark On Mes os模式（国内不常用）：官方推荐这种模式（当然，原因之一是血缘关系）。正是由于Spark开发之初就考虑到支持Mes os，因此，目前而言，Spark运行在Mes os上会比运行在YARN上更加灵活，更加自然。用户可选择两种调度模式之一运行自己的应用程序：
（1）粗粒度模式（Coa rse-grained Mo de）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。
（2）细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark On Mes os还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。