Spark大数据分析与实战笔记（第二章 Spark基础-02）

本文介绍: Spark Standalone集群是主从架构的集群模式，由于存在单点故障问题，解决这个问题需要用到Zookeeper服务，其基本原理是将Standalone集群连接到同一个Zookeeper实例并启动多个Master节点，利用Zookeeper提供的选举和状态保存功能，可以使一台Master节点被选举，另一台Master节点处于Standby状态。当活跃的Master发生故障时，Standby状态的Master就会被激活，恢复集群调度，整个恢复的过程可能需要1-2分钟。或者看我之前的博客也行。

请参考《Hadoop大数据技术与应用》完成Hadoop集群构建。或者看我之前的博客也行。

搭建Spark环境是开展Spark编程的基础，在深入学习Spark编程之前，我们需要的先搭建Spark开发环境。

由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。

安装Spark集群前，需要安装Hadoop环境，本教材采用如下配置环境。

Spark部署模式分为Local模式(本地单机模式)和集群模式，在Local模式下，常用于本地开发程序与测试，而集群模式又分为Standalone模式(集群单机模式)、 Yarn模式和Mesos模式，关于这三种集群模式的相关介绍具体如下:

$ tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/

为了便于后面操作，我们使用mv命令将Spark的目录重命名为spark，命令如下。
mv spark-2.3.2-bin-hadoop2.7/ spark

#配置java环境变量
export JAVA_HOME=/export/servers/jdk
#指定Master的IP
export SPARK_MASTER_HOST=hadoop01
#指定Master的端口 
export SPARK_MASTER_PORT=7077

（3）复制slaves.template文件，并重命名为slaves 。具体命令如下。
cp slaves.template slaves

（4）修改spark-env.sh文件，在该文件添加以下内容：通过“vi slaves”命令编辑slaves配置文件，主要是指定Spark集群中的从节点IP，由于在hosts文件中已经配置了IP和主机名的映射关系，因此直接使用主机名代替IP，添加内容如下。

hadoop02
hadoop03

$ scp -r /export/servers/spark/ hadoop02:/export/servers/
$ scp -r /export/servers/spark/ hadoop03:/export/servers/

为了在任何路径下可以执行Spark脚本程序,可以通过执行“vi /etc/profile’命令编辑 .bashrc或者 profile文件，并在文件中配置Spark环境变量即可。文件中添加以下内容：

export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin

1.启动Zookeeper集群服务。命令如下：
zkServer.sh start

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/export/data/zookeeper /zkdata
clientPort=2181

server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888

#指定Master的IP
#export SPARK_MASTER_HOST=hadoop01
#指定Master的端口
export SPARK_MASTER_PORT=7077
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop01:2181,hadoop02:2181,hadoop03:2181
-Dspark.deploy.zookeeper.dir=/spark"

scp spark-env.sh hadoop02:/ekport/servers/spark/conf
scp spark-env.sh hadoop03:/export/servers/spark/conf

在hadoop01主节点使用—键启动脚本启动，命令如下：
/export/servers/spark/sbin/start-all.sh

在hadoop02节点再次启动Master服务，命令如下：
/export/servers/spark/sbin/start-master.sh

/export/servers/spark/sbin/stop-master.sh

#!/bin/sh
for host in hadoop01 hadoop02 hadoop03
do
	ssh $host "source /etc/profile;zkServer.sh start"
	echo "$host zk is running"
done

执行该文件只需要输入”start_zk.sh” 即可启动集群中的Zookeeper服务。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

master spark

文章目录

每日一句正能量

章节概要

2.2 搭建Spark开发环境

2.2.1 环境准备

2.2.2 Spark的部署方式

2.2.3 Spark集群安装部署

一、Spark下载

二、Spark安装

三、环境变量配置

2.2.4 Spark HA集群部署

一、集群部署

二、运行测试

三、多学一招

发表回复取消回复