【Hadoop】分布式文件系统 HDFS

互联网 12 月前 0 4

本文介绍: HDFS （Had oop Di str i bu t e d File Syste m）是 Ha d oop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。

目录

一、介绍
二、HDFS设计原理
三、HDFS的特点
四、图解HDFS存储原理

一、介绍

HDFS （Hadoop Di str i buted File Syste m）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。

二、HDFS设计 原理

2.1 HDFS 架构

HDFS 遵循主/从架构，由单个 Na m eNode(NN) 和多个 DataNode(DN) 组成：

Na m eNode : 文件系统的管理节点，维护整个系统的元数据，包括文件目录树、文件/目录信息，以及每个文件对应的block 列表等
DataNode：文件系统的数据节点，提供真实文件数据的存储服务。

在这里插入图片描述
注：

HDFS在存储时，以block的形式存储数据，默认大小为128M（2.x和3.x版本）
- 如果文件超过128M，就会被切分为多个 block存储
- 如果文件不足128M，则只产生一个 block（只占用实际大小的磁盘空间）

2.2 数据 复制

为了保证容错性，HDFS 提供了数据复制机制。HDFS 将每一个文件存储为一系列 block，每个块由多个副本来保证容错，块的大小和复制因子可以自行配置（默认情况下，块大小是 128M，默认复制因子是 3）
在这里插入图片描述

复制的实现 原理

大型的 HDFS 实例在通常分布在多个机架的多台服务器上。在大多数情况下，同一机架中的服务器间的网络带宽大于不同机架中的服务器之间的带宽。因此 HDFS 采用机架感知副本放置策略，对于常见情况，当复制因子为 3 时，HDFS 的放置策略是：

在写入程序位于 datanode 上时，就优先将写入文件的一个副本放置在该 datanode 上，否则放在随机 data node 上
之后在另一个远程机架上的任意一个节点上放置另一个副本
并在该机架上的另一个节点上放置最后一个副本

此策略可以减少机架间的写入流量，从而提高写入性能。
在这里插入图片描述
注意：同一个 dataNod e 上不允许有同一个块的多个副本

三、HDFS的特点

优点
- 通透性：即使有通过网络访问文件的操作，但在程序和用户看来就像是在访问本地磁盘
- 高容错：多副本保证即使部分硬件损坏也不会导致全部数据的丢失
- 性价比高：可以运行在大量的廉价机器上，节约成本
缺点
- 不适合低延时数据访问：数据延时无法支持“毫秒”级别的数据存储
- 不适合小文件存储：主节点的内存是有限的，不论大小文件都会在主节点中保存元信息，存储大量小文件没有意义，违背HDFS的设计理念
- 不支持文件并发写入和随机修改：一个文件同时只能有一个线程执行写操作。只支持文件追加，不支持数据的随机访问和修改

四、图解HDFS存储原理

以下图片引用自博客：翻译经典 HDFS 原理讲解漫画

1. 写过程

在这里插入图片描述

2. 读过程

在这里插入图片描述

3. HDFS故障 类型和其检测 方法

故障 类型和其检测 方法

在这里插入图片描述

读写 故障的处理

在这里插入图片描述

DataNod e 故障 处理

在这里插入图片描述

副本布局 策略

在这里插入图片描述

原文地址:https://blog.csdn.net/kazuhura/article/deta i ls/134629860

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_13371.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

hadoop hdfs 分布式文件系统

相关文章

hadoop学习笔记

互联网 10 月前 3

Hadoop-生产调优

互联网 10 月前 6

2.0 Hadoop 运行环境

2.0 Hadoop 运行环境

互联网 10 月前 7

大数据 – Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

大数据 – Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进

大数据 10 月前 6

2024-02-01(Hive)

2024-02-01(Hive)

互联网 10 月前 4

Hadoop3.x基础（1）

互联网 10 月前 6

JVM之GC垃圾回收

互联网 10 月前 3

行为型设计模式—中介者模式

互联网 10 月前 4

发表回复取消回复