Bootstrap

云计算与大数据期末考试题库

单选题

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机(本地)模式

B. 伪分布式模式

C. 互联模式

D. 分布式模式

2、Hadoop作者 

Martin Fowler

Kent Beck

Doug cutting√

3、HDFS默认Block Size的大小是

32MB

64MB√

128MB

4、下列哪项通常是集群的最主要的性能瓶颈

CPU

网络

磁盘IO√

内存

5、下面哪个程序负责HDFS数据存储。

NameNode

Jobtracker

Datanode √

secondaryNameNode

6. 下列关于MapReduce说法不正确的是____C__。

A. MapReduce是一种计算框架

B. MapReduce来源于google的学术论文

C. MapReduce程序只能用java语言编写

D. MapReduce隐藏了并行计算的细节,方便使用

7、HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 __D____。

A.一次写入,少次读

B.多次写入,少次读

C.多次写入,多次读

D.一次写入,多次读

8、HBase来源于哪一项? C

A The Google File System

B MapReduce

C BigTable

D Chubby

9、下面对HBase的描述哪些是不正确的? A

A 不是开源的

B 是面向列的

C 是分布式的

D 是一种NoSQL数据库

10、 HBase依靠__A____存储底层数据。

A. HDFS

B. Hadoop

C. Memory

D. MapReduce

11、HBase依赖___D___提供强大的计算能力。

A. Zookeeper

B. Chubby

C. RPC

D. MapReduce

12. HBase依赖___A___提供消息通信机制

A. Zookeeper

B. Chubby

C. RPC

D. Socket

13、HDfS中的block默认保存几份?

3份√

2份

1份

不确定

14、Spark 是用一下哪种编程语言实现的?()

A.C

B.C++;

C.JAVA;(正确答案)

D.Scala

15、某银行规划集群有90 个节点,如果控制节点规划了3 个,那集群中数据节点规划推荐规划多少最为合适?()

A.87;(正确答案)

B.85;

C.90;

D.86;

16、华为FusionInsight HD 集群中, Spark 服务不可以从以下哪个服务读取数据?(A)

A.YARN;

B.HDFS;

C.Hive;

D.HBase;

17、Hadoop 系统中关于客户端向HDFS 文件系统上传文件说法正确的是?()

A.客户端的文件数据经过NameNode 传递给DataNode;

B.客户将文件分为多个Block,根据Database 的地址信息,按顺序写入每一个DataNode 中;(正确答案)

C.客户端根据DatabNode 的地址信息,按顺序将整个文件写入每一个Database 中,然后由DataNode 将文件划分为多个Block;

D.客户端只上传数据到一个DatabNode ,然后由NameNode 负责Block 复制;

18、IaaS层服务是通过网络向客户提供(A)。

A.虚拟服务器、存储和网络资源

B.以应用服务器的平台或开发环境为内容向客户提供服务

C.以软件应用(如CRM、ERP、OA等)为内容向客户提供服务

19、SaaS层服务是(C)。

A.虚拟服务器、存储和网络资源

B.以应用服务器的平台或开发环境为内容向客户提供服务

C.以软件应用(如CRM、ERP、OA等)为内容向客户提供服务

20、( B )是大数据的前沿技术。

A、数据处理

B、数据分析

C、数据定义

D、数据结构

21、大数据赖以生存的土壤是A。

A、互联网

B、物联网

C、网络信息

D、前沿技术

22、以下不属于云计算的特点的是(C)

A、资源池弹性可扩张

B、虚拟化

C、以人为中心

D、高可靠和安全性

23.大数据的特点不包括下面哪一项___D___。

A. 巨大的数据量

B. 多结构化数据

C. 增长速度快

D. 价值密度高

24、大数据的核心是(B)

A,通知和许可B,预测C,匿名D,规模 25.云硬盘的作用是(A)。

A.数据存储(正确答案)

B.视频处理

C.上传图片

D.访问公网

26.根据用途的不同,可分为以下几种云。D

A.公有云

B.私有云

C.混合云

D.企业云

27.负载均衡的作用是() [单选题] *

A.存储图片

B.存储视频

C.并行计算

D.流量分发(正确答案)

28.可以把云主机看做是一台虚拟的()。

A.电脑(正确答案)

B.路由器

C.交换机

D.显示屏

29.下面那个选项不是云计算的特征。C

A.按需付费

B.即时获取

C.费用较高

D.弹性伸缩

30.大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行(B)。

A. 数据信息  B. 专业化处理  C.速度处理  D. 内容处理

31.云计算是对(D)技术的发展与运用

     A、并行计算

     B、网格计算

     C、分布式计算

     D、三个选项都是

32、我们常提到的"Window装个VMware装个Linux虚拟机"属于(C)

     A、存储虚拟化

     B、内存虚拟化

     C、系统虚拟化化

     D、网络虚拟化

33.下列哪个特性不是虚拟化的主要特征()D

     A、高扩展性

     B、高可用性

     C、高安全性

     D、实现技术简单

  34.从研究现状上看,下面不属于云计算特点的是( C)

     A、超大规模

     B、虚拟化

     C、私有化

     D、高可靠性

35、(A )提供云用户请求服务的交互界面,也是用户使用云的入口,用户通过Web浏览器可以注册、登录及定制服务、配置和管理用户。打开应用实例与本地操作桌面系统一样。

     A、云用户端

     B、服务目录

     C、管理系统和部署工具

     D、监控端

36. ( B)是公有云计算基础架构的基石。

    A、虚拟化

    B、分布式

    C、并行

    D、集中式

37.云计算就是把计算资源都放到上(B )

    A、对等网

    B、因特网

    C、广域网

    D、无线网

38.数据存储单位从小到大排列顺序是 C

    A、EB 、PB、YB、ZB

    B、PB、EB、YB、ZB

    C、PB、EB、ZB、YB

    D、YB、ZB、PB、EB

39. 虚拟化资源指一些可以实现一定操作具有一定功能,但其本身是( A)的资源,如计算池,存储池和网络池、数据库资源等,通过软件技术来实现相关的虚拟化功能包括虚拟环境、虚拟系统、虚拟平台。

    A、虚拟

    B、真实

    C、物理

    D、实体

40、微软于2008年10月推出云计算操作系统是(C)

    A、GoogleAppEngine

    B、蓝云

    C、Azure

    D、EC2

41.云计算体系结构的(C)负责资源管理、任务管理用户管理和安全管理等工作

    A、物理资源层

    B、资源池层

    C、管理中间件层

    D、SOA构建层

42.( D)在许多情况下,能够达到99.999%的可用性。

    A、虚拟化

    B、分布式

    C、并行计算

    D、集群

43、云计算里面面临的一个很大的问题,就是(D)。

    A、服务器

    B、存储

    C、计算

    D、节能

44、云计算技术的研究重点是(B)

A服务器制造。B将资源整合。C网络设备制造。D数据中心制造

45、网页 QQ 属于(A)。

A.SaaS   B.IaaS  C.PaaS   D.VaaS

 Hive 是建立在_C__之上的一个数据仓库?

A hdfs  B  MapReduce  C  Hadoop  D  HBase

46、FusionInsight HD 系统中HBase 的最小处理单元是

Region ,User Region 和RegionService 之间的路由信息是保

存在哪?(D)

A. Zookeeper ; B. HDFS;   C. Master ;  D. meta 表;

47、下列哪个HDFS 命令可用于检测数据块的完整性?(A)

A.hdfs fsck /;  B.hdfs fsck / -delete;

C.hdfs dfsadmin -report;   D.hdfs balancer -threshold 1;

48、下列哪个程序通常与NameNode在一个节点启动?(D)

A:SecondaryNameNode   B:DataNode

C:TaskTracker            D:Jobtracker

49、关于SecondaryNameNode哪项是正确 的?(C)

A它是NameNode的热备

B 它对内存没有要求

C 它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间

D SecondaryNameNode应与NameNode部署到一个节点

50 、一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个Block? (B)

A 1    B 2    C 3     D 4

51. 下列不属于OpenStack 组件的是( D)。

A. Keystone  B. Nova  C. Glance  D.MapReduce

52. 关于云计算的表述错误的是( B)。

A. 云计算是通过网络按需向用户提供IT 基础设施服务 B. 在云中,所有资源都可以通过纵向进行扩展

C. 云计算是服务的交付和使用模式  D. 云计算是一种能够提供可便捷获取所需资源的模型

53、OpenStack中提供认证管理服务的组件是( C )

A、Cinder B、Nova  C、Keystone   D、Neutron

54. 下列(C)不是Nova 具有的功能。

A. 实例生命周期管理 B. 计算资源管理  C. 镜像内容管理  D. 基于REST 的API

55. MapReduce 编程模型对数据流的处理过程包含以下流程:

① Splitting ② Shuffling ③ Input ④ Mapping ⑤ Reducing 其中顺序正确的是(B )。

A. ①③②④⑤  B. ③①④②⑤  C. ②⑤③①④  D. ④⑤①③②

56. 关于hadoop 的描述错误的是(C )。

A. Hadoop 是一款开源软件,实现了分布式文件系统功能

B. Hadoop 具有低成本、高扩展性、高效性、高容错性等特点

C. Hadoop 扩展新的节点后,需重载所有节点后生效

D. Hadoop 将计算任务动态分配到集群中各个节点,并保证各节点动态平衡

57. 关于HDFS 描述错误的是( C)。

A.HDFS 实现了对分布式存储的底层支持,可高速读写数据

B.HDFS 可根据需求进行水平扩展

C.HDFS 在MapReduce 任务处理过程中提供了目录的访问和存储的支持

D. HDFS 与MapReduce 相互协作共同完成hadoop 分布式集群主要任务

58. 下列(A )不属于HDFS 存在的缺点。

A. 可处理大量数据,具有高吞吐量  B. 时间延迟相对较高

C. 存储小文件成本过高  D. 同一时间只支持一个用户写入

59. 下列( B)不属于Hadoop 部署模式。

A. 单机模式B. 双机模式C. 伪分布式D. 完全分布式

60. 下列关于HBase 的描述错误的是(B)。

A. HBase 可以与Hadoop 更好的整合在一起  B. HBase支持表间的join操作等操作

C. HBase 的每一次操作都有时间戳标记  D. HBase 是基于列存储的类型

61. 下列( C)不属于OpenStack 具有的优势。

A. 兼容性  B. 可扩展性  C. 易安装性  D. 灵活性

62、OpenStack中提供镜像注册服务的组件是( B )

A、Swift  B、Glance  C、Nova  D、Cinder

63、OpenStack中提供计算服务的组件是( B )

A、Neutron  B、Nova  C、Swift  D、Glance

64、Hive默认的构造是存储在(install-dir)/conf/__(B )

A.hive-core.xml

B.hive-default.xml

C.hive-site.xml

D.hive-lib.xml

65、Hive 是建立在__C_之上的一个数据仓库?

A.hdfs   B.MapReduce  C.hadoop   D.HBase

66、为了启动 hive,我们必须在路径里安装有 hadoop 或者A__?

A.export HADOOP_HOME=hadoop-install-dir

B.export HIVE_HOME=hive-install-dir

C.export JAVA_HOME=java-install-dir

D.export HDFS_HOME=hdfs-install-dir

67、对于最小粒度的任务,Hive 查询的反应时间约为 _D__?

A.几微秒  B.几毫秒  C.几秒  D.几分钟

68、下面的哪个版本的 Hadoop 在其安装目录里集成了 Hive __D_?

A.Hadoop-0.18.1  B.Hadoop-0.18.2  C.Hadoop-0.19.1  D.Hadoop-0.20.1

69、Hive 查询语言中的算术操作符的返回结果是__A_类型的?

A.Number   B.Int   C.Bigint   D.String

70、Hive 最重视的性能是可测量性,延展性,_B_和对于输入格式的宽松匹配性?

A 较低恢复性

B 容错性

C 快速查询

D 可处理大量数据

71、Hadoop中,___执行文件系统命名空间操作 B

A Datanode

B Namenode

C JobTracker

D TaskTracker

判断题

  1. MapReduce与HBase两者不是强关联关系,没有MapReduce,HBase可以正常运行,MapReduce可以直接访问HBase(正确)
  2. 如果NameNode意外终止,SecondaryNameNode会接替它使集群继续工作。( 错 )
  3. Hadoop是Java开发的,所以MapReduce只支持Java语言编写。(  错)
  4. Slave节点要存储数据,所以它的磁盘越大越好。( 错 )
  5. Hadoop默认调度器策略为FIFO,并支持多个Pool提交Job。( 错 )
  6. 因为HDFS有多个副本,所以NameNode是不存在单点问题的。( 错 )
  7. Mapreduce的input split就是一个block。(  错)
  8. Kerberos 仅用于组建间服务安全认证。(答案:错误)
  9. 安装数据平台软件包前,必须在本节点/etc/hosts文件中配置所有节点的主机名与业务ip 的映射关系。(答案:正确)
  10. 云计算是从网格计算演化而来的,能够随需应变地提供资源。 标准答案:对
  11. 云计算的消费者需要管理或控制云计算的基础设施,例如网络,操作系统、存储等。 标准答案:错
  12. PaaS实质是将互联网的资源服务化为可编程接口。对。
  13. 采用空气冷却的数据中心通常建在较高的维度上。对。
  14. 全虚拟化同时能够支持多个不同的操作系统。对。
  15. 分布式文件系统基本上都有冗余备份机制和容错机制来保证数据读写的正确性。对。
  16. 云计算的硬件主要部署于数据中心。对。
  17. 低功耗芯片是将来云计算芯片的主流,将是云计算芯片的主流发展方向。对。
  18. 工信部已在北京、上海、杭州、深圳、无锡、哈尔滨等多个城市开展云计算服务创新试点工作。(对)
  19. “云计算:是基于互联网的服务的增加、使用交付模式, 通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。” 标准答案:true
  20. 云计算产业的发展瞬息万变,具有强大的活力,这种不确定性也是战略性新兴产业的特征。 标准答案:true
  21. 云计算是一种计算模式,能够提供随时随地的、便捷的、随需应变的网络接入,访问可配置的 计算资源共享池。 标准答案:true
  22. 智慧旅游平台可以通过采集汇总客户相关数据,综合分析景区旅游游客来源及行程轨迹特征,实时统计游客流量信息。(  正确  )
  23. 互联网就是一个超大云(正确 )
  24. 高德地图使用大数据能进行小路的识别。 正确
  25. 大数据仅仅是指数据的体量大。错误
  26. 大数据的数据格式为结构化数据。错误
  27. 数据清洗就是去除重复记录。错误
  28. PIG是脚本语言,它与mapreduce无关。(错)
  29. 集群内每个节点都应该配RAID,这样避免单磁盘损坏,影响整个节点运行。(错  )
  30. 因为HDFS有多个副本,所以NameNode是不存在单点问题的。(  错)
  31. Hadoop支持数据的随机写。( 错 )
  32. NameNode负责管理metadata,client端每次读写请求,它都会从磁盘中读取或则会写入metadata信息并反馈client端。(  错)
  33. Block Size 是不可以修改的。(错误 )
  34. Slave 节点要存储数据,所以它的磁盘越大越好。( 错误)
  35. Hadoop 默认调度器策略为 FIFO(正确 )
  36. 数据库都使用SQL语言作为操作语言(错)
  37. standalone(集群模式)典型的Mater/slave模式,Master可能有单点故障的;Spark⽀持ZooKeeper来实现 HA。(正确)

简答题

1.请简要说明大数据技术

答:“大数据”就是海量数据的集合,而大数据技术就是采集、分析、处理这些庞大数据信息,应用到生活中。大数据技术主要包含以下技术:大数据收集、大数据的存储、大数据的清洗、大数据的查询分析、大数据可视化分析、大数据挖掘、模型预测、结果呈现等技术。

2.简述大数据的特征(5V 特征)

(1)数据体量(Volume)巨大,指收集和分析的数据量非常大,从TB 级别跃升至PB级别;

(2)处理速度(Velocity)快,需要对数据进行近实时的分析;

(3)数据类别(Variety)大,大数据来自多种数据源,数据种类和格式日渐丰富,包括结构化、半结构化和非结构化等多种数据形式;

(4)数据真实性(Veracity),大数据的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取能够解释和预测现实事件的过程。

(5)价值密度低,商业价值(Value)高,通过分析数据可以得出如何抓住机遇及收获价值。

3.简述云计算概念及特点

云计算是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序。

云计算的特征:超大规模、虚拟化、高可靠性、高可伸缩性、按需服务、极其廉价等特征。

4.简述云计算服务模型的分类及各类的定义。

云计算模型中包括IaaS(基础架构即服务)、PaaS(平台即服务)和SaaS(软件即服务)。

 IaaS 提供最底层的IT 基础设施服务,包括处理能力、存储空间、网络资源等,用户可

以从中获取硬件或虚拟硬件资源,可以给申请到的资源安装操作系统和其他应用程序。

 PaaS 是把已经安装好开发环境的系统平台作为一种服务通过互联网提供给用户。用户

可以在上面安装其他应用程序,但不能修改已经安装好的操作系统和运行环境。

 SaaS 可直接通过互联网为用户提供软件和应用程序的服务。用户可以通过租赁的方式

获取安装在厂商或者服务供应商那里的软件。

5.简述Hadoop集群可以运行的3个模式?

单机(本地)模式,伪分布式模式和全分布式模式三种。

Hadoop的三种运行模式 :

单机(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行,调试MR程序非常高效方便,主要是在学习或者开发阶段调试使用。

伪分布式模式: Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,伪分布式是完全分布式的一个特例。

全分布式模式:Hadoop守护进程运行在一个集群上。通常被用于生产环境。

6.简述Hadoop核心组件及功能

1)Hadoop通用组件(Hadoop Common):包含了其他hadoop模块要用到的库文件和工具。

2)分布式文件系统(Hadoop Distributed File System,HDFS):运行于通用硬件上的分布式文件系统,高吞吐,高可靠。

3)资源管理组件(Hadoop YARN):用于管理集群中的计算资源并在这些资源上调度用户应用。

4)分布式计算框架(Hadoop MapReduce):用于处理超大数据集计算的MapReduce编程模型的实现。

;