第2章 Hadoop分布式文件系统HDFS

文章目录

第2章 Hadoop分布式文件系统HDFS

第2章 Hadoop分布式文件系统HDFS

一：判断题

1：Block Size 是不可以修改的

2：如果 NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。

3：Hadoop 是 Java 开发的，所以 MapReduce 只支持 Java 语言编写

4：Cloudera CDH 是不需要付费使用的

5：因为 HDFS 有多个副本，所以 NameNode 是不存在单点问题的

6：Hadoop 默认调度器策略为 FIFO

7：Slave 节点要存储数据，所以它的磁盘越大越好

8：Hadoop 支持数据的随机读写

二：单选题

1：HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？

A.64MB

B.75M

C.128M

D.一个map读取64MB，另外一个map读取11MB

2：一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？

A.1

B.2

C.3

D.4

3：出现在 datanode 的 VERSION 文件格式中但不出现在 namenode 的VERSION文件格式中的是

A.namespaceID

B.storageID

C.storageType

D.layoutVersion

4：Hadoop非常适合在商用硬件上做分布式存储和计算，在Hadoop集群中，负责文件的存储和管理的是？

A.HDFS

B.MapReduce

C.Hive

D.HBase

5：如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？

A.200

B.40000

C.400

D.1200

6：下列不是属于Apache中和Hadoop相关的项目是？

A.Avro

B.Kettle

C.Zookeeper

D.Hive

7：Hadoop最基础的功能是？

A.存储和处理海量数据的能力

B.快速编写程序

C.加快数据的读取

D.数据挖掘

8：关于 Hadoop 单机模式和伪分布式模式的说法，正确的是

A.两者都起守护进程，且守护进程运行在一台机器上

B.单机模式不使用 HDFS，但加载守护进程

C.两者都不与守护进程交互，避免复杂性

D.后者比前者增加了 HDFS 输入输出以及可检查内存使用情况

9：大数据的类型包含结构化数据、半结构化数据和非结构化数据，下列属于结构化数据的是？

A.Excel二维表格

B.图像

C.视频

D.音频

10：数据采集是将数据引入大数据平台的过程，针对不同的数据源需要采取不同的采集方法，网络数据采集适合下列哪类采集方法？

A.ETL工具抽取

B.分布式日志采集系统

C.爬虫、开放API

D.智能传感设备

11：分布式计算，就是通过不断增加处理器的数量在增强单个计算机的计算能力，从而提高处理数据的速度。

A.正确

B.错误

12：大数据时代的出现，在数据分析的发展过程中是必然的，互联网和物联网的发展，是大数据时代出现的技术基础。

A.正确

B.错误

13：下列关于 MapReduce 说法不正确的是 ______

A.MapReduce 是一种计算框架

B.MapReduce 来源于 google 的学术论文

C.MapReduce 程序只能用 java 语言编写

D.MapReduce 隐藏了并行计算的细节，方便使用

14：下面与 HDFS 类似的框架是

A.NTFS

B.FAT32

C.GFS

D.EXT3

15：出现在 datanode 的 VERSION 文件格式中但不出现在 namenode 的VERSION文件格式中的是

A.namespaceID

B.storageID

C.storageType

D.layoutVersion

16：Client 在 HDFS上进行文件写入时，namenode 根据文件大小和配置情况，返回部分 datanode 信息，谁负责将文件划分为多个 Block，根据 DataNode 的地址信息，按顺序写入到每一个 DataNode 块

A.Client

B.Namenode

C.Datanode

D.Secondary namenode

17：关于 HDFS 的文件写入，正确的是

A.支持多用户对同一文件的写操作

B.用户可以在文件任意位置进行修改

C.默认将文件块复制成三份存放

D.复制的文件块默认都存在同一机架上

18：Hadoop fs 中的-get 和-put 命令操作对象是

A.文件

B.目录

C.两者都是

D.两者都不是

19：Namenode 在启动时自动进入安全模式，在安全模式阶段，说法错误的是

A.安全模式目的是在系统启动时检查各个 DataNode 上数据块的有效性

B.根据策略对数据块进行必要的复制或删除

C.当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式

D.文件系统允许有修改

20：下面哪个程序负责 HDFS 数据存储

A.NameNode

B.Jobtracker

C.Datanode

D.secondaryNameNode

21：Client 端上传文件的时候下列哪项正确

A.数据经过 NameNode 传递给 DataNode

B.Client 端将文件切分为 Block ，依次上传

C.Client 端不会对文件切分为 Block ，依次上传

D.Client 只上传数据到一台 DataNode ，然后由 NameNode 负责 Block 复制工作

22：以下哪个命令不可以用来操作HDFS文件:

A.hdfs dfs

B.hadoop fs

C.hdfs fs

D.hadoop dfs

三：填空题

1：start-all.sh启动后，Shell命令查看HDFS根目录下的文件

hdfs dfs -ls /

2：start-all.sh启动后，将本地Linux系统目录/home/hadoop/data/下的mobile.txt文件上传到根目录的HDFSShell目录下的命令：

hdfs dfs -put /home/hadoop/data/mobile.txt /HDFSShell

3：统计目录/HDFSShell下文件大小的Shell命令

hdfs dfs -du /HDFSShell

4：启动hadoop所有进程的命令是:

start-all.sh

5：分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫 :

名称节点

，另一类存储具体数据叫

数据节点

四：主观题

1：HDFS核心组件有哪些？每个组件的具体功能是什么？

HDFS核心组件包含：数据块（Block）、元数据节点（NameNode）
、数据节点(DataNode)和从元数据节点(secondaryNameNode)

Block:默认的最基本的存储单位为128M的数据块

NameNode：管理文件系统的命名空间

DataNode：客户端或者元数据信息（NameNode）可以向数据节点
请求写入或者读出数据块,其周期性的向元数据节点回报其储存
的数据块信息。

secondaryNameNode:周期性的将元数据节点命名空间的镜像文件和修改
日志文件合并，以防日志文件过大。

2：为什么HDFS不适合存储小文件？

在HDFS中，访问大量小文件速度远远小于访问几个大文件，HDFS最初是为流式
访问大文件开发的，如果访问大量小文件，需要不断的从一个datanode跳到另
一个datanode,严重影响性能。每一个小文件要占用一个solt，而task启动将
耗费大量时间甚至大部分时间都耗费在启动task和释放task上.

3：使用FileSystem对象的rename()方法将目录/HDFSJava下mobile.txt文件重命名为newMobile.txt

public void rename() throws Exception{
    Path oldPath = new path("/HDFSJava/mobiles.txt");
		Path newPath = new Path("/HDFSJava/newMobiles.txt");
		System.out.println(fileSystem.rename(oldPath,newPath));
}

4：编写Mobile类，使用Hadoop序列化得方式序列化Mobile类，并将序列化的对象反序列化出来,写出实现的三个步骤。

1、编写Mobile实体类。

2、编写序列化工具类，实现序列化和反序列化方法。

3、编写测试类来测试序列化和反序列化方法。