Hadoop读写操作（HDFS运行机制） - 悦读

Hadoop读写操作（HDFS运行机制）

目录

一、HDFS读写数据流程
- 1、HDFS读数据（下载）流程
- 2、HDFS的写数据（上传）流程
二、NN、2NN、DN工作机制

一、HDFS读写数据流程

1、HDFS读数据（下载）流程

在这里插入图片描述

客户端通过Distributed FileSystem（分布式文件系统）向NameNode（索引）请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode（存储数据）地址；
挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据；
DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
客户端以Packet（数据包，是bit的集合）为单位接收，先在本地缓存，然后写入目标文件。

2、HDFS的写数据（上传）流程

在这里插入图片描述

客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
NameNode返回是否可以上传。
客户端请求第一个 Block（数据块）上传到哪几个DataNode服务器上。
NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
客户端通过FSDataOutputStream（客户端写入）模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
dn1、dn2、dn3逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）

二、NN、2NN、DN工作机制

1、2NN产生背景

假设元数据存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点，SecondaryNamenode，专门用于FsImage和Edits的合并。

2、NameNode工作机制

在这里插入图片描述 1、第一阶段：NameNode启动

（1）第一次启动NameNode格式化后，创建Fsimage（镜像）和Edits（日志）文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求。

（3）NameNode记录操作日志，更新滚动日志。

（4）NameNode在内存中对数据进行增删改。

2、第二阶段：Secondary NameNode工作

（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。

（2）Secondary NameNode请求执行CheckPoint。

（3）NameNode滚动正在写的Edits日志。

（4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。

（5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件fsimage.chkpoint。

（7）拷贝fsimage.chkpoint到NameNode。

（8）NameNode将fsimage.chkpoint重新命名成fsimage。

CheckPoint时间：通常情况下，SecondaryNameNode每隔一小时执行一次。

3、DataNode工作机制

在这里插入图片描述

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

4、NameNode故障处理

方法一：将SecondaryNameNode中数据拷贝到NameNode存储数据的目录；

方法二：使用-importCheckpoint选项启动NameNode守护进程，从而将SecondaryNameNode中数据拷贝到NameNode目录中。

悦读

道可道，非常道；名可名，非常名。无名，天地之始，有名，万物之母。故常无欲，以观其妙，常有欲，以观其徼。此两者，同出而异名，同谓之玄，玄之又玄，众妙之门。

k8s源码解析 - apply命令的实现

nagle算法禁用真的有用吗_Win10游戏模式，你真的会用吗？只有这样设置，游戏操作才流畅...

【含文档+PPT+源码】微信课堂在线考试小程序的设计与开发

【pycharm】【配置Python解释器】【Configure a Python interpreter】

深度学习(18)--注意力机制详解

node.js中实现MySQL的增量备份

网络安全-文件上传漏洞的原理、攻击与防御

【深入理解SpringCloud微服务】深入理解nacos

机器学习数据分析软件：Octave

各笔记本安装双系统遇到的问题

;