本文介绍: Hadoop一个由 Apache 基金会开发开源分布式计算框架,旨在处理分析海量数据。它提供了对大数据进行存储处理分析基础架构,并且可以在低成本的硬件集群运行。通常情况下 Hadoop 是指一个更广泛的概念——Hadoop 生态圈。Hadoop Distributed File System (HDFS) 是 Hadoop核心组件之一,提供了一个高度容错性的分布式文件系统

Hadoop 概述

Hadoop什么

Hadoop 主要发展历程

Hadoop 优势

总体而言,Hadoop 的优势在于其能够有效地处理大规模数据、提供高度扩展性和容错性,同时具备开源性和灵活性,适用于各种不同的应用场景

Hadoop 组成

Hadoop 1.x、2.x、3.x 区别

HDFS 概述

Hadoop Distributed File System (HDFS) 是 Hadoop 的核心组件之一,提供了一个高度容错性的分布式文件系统

YARN 概述

Yet Another Resource Negotiator (YARN) 是 Hadoop 2.x版本引入的资源管理调度平台。它负责管理整个集群的计算资源(如CPU和内存)以及任务调度。YARN允许其他计算框架(例如 Spark 或 Flink)与 Hadoop 集成并在同一集群上运行

MapReduce 架构概述

MapReduce 是一种编程模型用于编写分布式数据处理应用程序。它将复杂计算任务分解为两个主要阶段:Map 阶段和 Reduce 阶段

HDFS、YARN、MapReduce 三者关系

客户端 Client 提交任务到资源管理器(ResourceManager),资源管理器接收任务之后去NodeManager 节点开启任务(ApplicationMaster), ApplicationMaster 向 ResourceManager 申请资源,若有资源 ApplicationMaster 负责开启任务即 MapTask。开始干活了即分析任务,每个 map 独立工作,各自负责检索各自对应的 DataNode,将结果记录到 HDFS,DataNode 负责存储,NameNode 负责记录,2nn 负责备份部分数据。

HDFS、YARN 和 MapReduce 共同协作,形成了 Hadoop 的基本架构,使其能够存储和处理大规模的数据。随着 Hadoop 生态系统发展,其他计算框架(如Apache Spark、Apache Flink)也被引入,扩展了 Hadoop 的功能

Hadoop 生态圈

Hadoop 是目前应用最为广泛的分布式数据处理框架,其具备可靠、高效、可伸缩等特点。

Hadoop 的核心组件是 HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop 生态圈。

根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。

经过时间的累积,Hadoop 已经从最开始的两三个组件,发展成一个拥有20多个部件的生态系统。在整个 Hadoop 架构中,计算框架起到承上启下的作用,一方面可以操作 HDFS 中的数据,另一方面可以被封装,提供 Hive、Pig 这样的上层组件的调用

接下来对 Hadoop 生态圈中出现的相关组件做一个简要介绍

原文地址:https://blog.csdn.net/qq_61828116/article/details/134745622

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_26790.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注