本文介绍: Hadoop解决两件事情:海量数据的存储(使用HDFS)和海量数据的计算(使用MapReduce)。简介:1)Hadoop是一个由Apachc基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。优势:1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
1、Hadoop、HDFS、YARN介绍
Hadoop解决两件事情:海量数据的存储(使用HDFS)和海量数据的计算(使用MapReduce)。
(1)Hadoop简介与优势
简介:
1)Hadoop是一个由Apachc基金会所开发的分布式系统基础架构
。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
优势:
1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4)高容错性:能够自动将失败的任务自动分配。
(2)Hadoop组成
(3)HDFS概述
Hadoop Distributed File System,简称HDFS,是一个分布式文件系统
。主要解决海量数据存储的问题。
(4)YARN概述
(5)MapReduce概述
2、安装
(1)Centos7.5软硬件安装
(2)配置服务器IP地址
(3)Xshell远程访问
(4)安装epel–release
(5)关闭防火墙,关闭防火墙开机自启
(6)卸载自带JDK
3、克隆三台虚拟机
(1)克隆虚拟机
(2)在hadoop102上安装JDK
(3)配置JDK环境变量
(4)在hadoop102按照hadoop
(5)配置hadoop环境变量
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。