第7章 数据处理与分析
一、单选题
1、下面描述错误的是:( )
A. 数据分析可以分为广义的数据分析和狭义的数据分析
B.广义的数据分析就包括狭义的数据分析和数据挖掘。
C.数据挖掘就是指狭义的数据分析
D. 数据挖掘是指从大量的数据中挖掘出未知的、且有价值的信息和知识的过程
2、下面描述错误的是:( )
A. 数据挖掘的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论
B. 数据挖掘的重点在寻找未知的模式与规律
C. 数据分析一般都是得到一个指标统计量结果,如总和、平均值等
D. 数据挖掘则是输出模型或规则,并且可相应得到模型得分或标签
3、下面关于机器学习和数据挖掘的描述错误的是:( )
A. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科
B. 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
C. 数据挖掘可以视为机器学习与数据库的交叉
D.数据挖掘是机器学习的底层技术
4、以下哪个不是典型的分类方法:( )
A.决策树
B.朴素贝叶斯
C. K-Means
D.人工神经网络
5、以下哪个不是聚类方法:( )
A. GMM
B. LDA
C. DBSCAN
D.TPLINK
6、聚类分析的常见应用场景不包括:( )
A. 发现关联购买行为
B. 目标用户的群体分类
C. 不同产品的价值组合
D. 探测发现离群点和异常值
7、下面关于回归分析的描述错误的是:( )
A. 是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
B. 回归分析按照涉及的变量的多少,分为一元回归和多元回归分析
C. 按照因变量的多少,可分为线性回归分析和非线性回归分析
D. 在大数据分析中,回归分析是一种预测性的建模技术
8、下面关于协同过滤算法的描述错误的是:( )
A. 基于用户的协同过滤算法(简称UserCF算法)是推荐系统中最古老的算法,可以说,UserCF的诞生标志着推荐系统的诞生
B. 基于物品的协同过滤算法(简称ItemCF算法)是目前业界应用最多的算法
C. 基于模型的协同过滤算法(ModelCF)是通过已经观察到的所有用户给产品的打分,来推断每个用户的喜好并向用户推荐适合的产品
D. UserCF算法是给目标用户推荐那些和他们之前喜欢的物品相似的物品。
9、下面属于批处理技术的是:( )
A. MapReduce
B. Storm
C. Spark Streaming
D. GraphX
10、下面属于流计算技术的是:( )
A. Spark MLLib
B. GraphX
C. S4
D. Hive
11、下面属于图计算技术的是:( )
A. Pregel
B. Dremel
C. Impala
D. DStream
12、下面属于查询分析计算技术的是:( )
A. Spark Streaming
B. Storm
C. Hive
D. Pregel
13、下列关于流计算的说法,哪项是错误的?( )
A.实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息
B.流计算秉承一个基本理念,即 数据的价值随着时间的流逝而降低
C.对于一个流计算系统来说,它应该支持TB级甚至是PB级的数据规模
D.流计算只需要保证较低的延迟时间,即只达到秒级别即可处理一切问题
14.下列关于数据处理流程,说法有误的是?( )
A.在传统的数据处理流程中,存储的数据是旧的
B.在传统的数据处理流程中,需要用户主动发出查询来获取结果
C.传统的数据处理流程,需要先采集数据并存储在关系数据库等数据管理系统中
D.流计算的处理流程一般包含三个阶段:数据实时采集、数据批量计算、实时查询服务
15、下面哪个属于图数据库:( )
A. Neo4j
B.MySQL
C.HBase
D.Oracle
16、下列关于MapReduce模型的描述,错误的是哪一项?( )
A.MapReduce采用“ 分而治之”策略
B.MapReduce设计的一个理念就是“ 计算向数据靠拢”
C.MapReduce框架采用了Master/Slave架构
D.MapReduce应用程序只能用Java来写
17、关于数据仓库Impala的描述错误的是:( )
A. Impala作为开源大数据分析引擎,支持实时计算,它提供了与Hive类似的功能,并在性能上比Hive高出3~30倍
B. Impala是由Cloudera公司开发的查询系统
C. Impala提供了SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级别海量数据
D. Impala最初是参照MySQL系统进行设计的
18、下面关于Spark和Hadoop的关系,描述错误的是:( )
A. Spark和Hadoop一样,既包含了存储的组件,也包含了计算的组件
B. Spark作为计算框架,只能解决数据计算问题,无法解决数据存储问题
C. Spark只是取代了Hadoop生态系统中的计算框架MapReduce,而Hadoop中的其他组件依然在企业大数据系统中发挥着重要的作用
D. 越来越多的企业放弃MapReduce,转而使用Spark开发企业应用
19、以下哪个不是Spark的生态系统的组件:( )
A. Spark Streaming
B. Structured Streaming
C. Zookeeper
D. GraphX
20、以下哪个组件是Spark中的机器学习算法库:( )
A. MLlib
B. Spark Core
C.Machine Leaning
D.Spark SQL
21、以下哪个组件是Spark中用于结构化数据处理的组件:( )
A.Spark SQL
B.Spark Core
C.Spark Streaming
D.Structured Streaming
22、Shark与Spark SQL的关系是:()
A.二者没有任何关系
B.Shark是Spark SQL的前身
C.Spark SQL是Shark的前身
D.二者是一个软件的两个不同名称,本质上是一个东西
23、下面关于TensorFlow和TensorFlowOnSpark的描述错误的是:()
A. TensorFlow是一个采用数据流图(Data Flow Graph)、用于数值计算的开源软件库
B. TensorFlow是一个开源的、基于Java的机器学习框架
C. TensorFlowOnSpark项目是由Yahoo开源的一个软件包,能将TensorFlow与Spark结合在一起使用
D. TensorFlowOnSpark为Apache Hadoop和Apache Spark集群带来可扩展的深度学习功能
24、以下哪个不是Storm的特点:()
A. 可扩展性
B. 可靠的消息处理
C. 支持各种编程语言
D. 复杂的API
25、下面关于Spark Streaming和Storm的描述错误的是:()
A. Spark Streaming可以实现毫秒级的流计算
B. Storm可以实现毫秒级响应
C. Spark Streaming构建在Spark Core之上
D. Spark Streaming可以同时兼容批量和实时数据处理的逻辑和算法
26、下面关于Flink的描述错误的是:()
A. Flink是一个针对流数据和批数据的分布式计算框架
B. Flink的设计思想主要来源于Hadoop、MPP数据库、流计算系统等
C. Flink主要是由Python代码实现的
D. Flink所要处理的主要场景是流数据,批数据只是流数据的一个特例而已
二、多选题
1、数据分析主要实现哪三大作用:()
A. 误差分析
B. 现状分析
C. 原因分析
D. 预测分析
2、数据挖掘主要侧重解决哪几类问题:()
A. 分类
B. 聚类
C. 关联
D. 预测
3、下面关于数据分析与数据处理的描述,正确的是:()
A. 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计算)
B. 数据分析和数据处理不存在紧密的关联关系
C. 二者是融合在一起的,很难割裂开来
D. 当用户在进行数据分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程序进行大量的数据处理
4、下面关于大数据处理与分析的描述,正确的是:()
A. 在理论层面,数据分析需要统计学、机器学习和数据挖掘等知识
B. 在技术层面,包括单机分析工具(比如SPSS、SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技术(比如MapReduce、Spark、Hive等)
C. 在大数据时代到来之前,数据分析主要以小规模的抽样数据为主,一般使用单机分析工具(比如SPSS和SAS)或者单机编程(比如Python、R)的方式来实现分析程序
D. 到了大数据时代,数据量爆炸式地增长,数据分析就需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分布式分析程序,借助于集群的多台机器进行并行数据处理分析
5、常见的关联规则挖掘算法包括:()
A. MP-Growth算法
B.FP-Growth算法
C. Apriori算法
D.Bpriori算法
6、协同过滤主要包括:()
A.基于用户的协同过滤
B.基于物品的协同过滤
C.基于模型的协同过滤
D.基于分类的协同过滤
7、大数据处理分析技术主要包括哪几种类型:()
A. 批处理计算
B. 流计算
C. 图计算
D. 查询分析计算
8、一次BSP计算过程包括一系列全局超步(超步就是指计算中的一次迭代),每个超步主要包括哪几个组件:()
A. 局部计算
B. 中间计算
C. 通信
D. 栅栏同步
9、下面关于MapReduce工作流程的描述,正确的是:()
A. 一个大的MapReduce作业,会被拆分成许多个Map任务在多台机器上并行执行
B. 每个Map任务通常运行在数据存储的节点上
C. 当Map任务结束后,会生成以<key,value-list>形式表示的许多中间结果
D. Reduce任务会对中间结果进行汇总计算得到最后结果
10、Hadoop的MapReduce的缺点包括:()
A. 表达能力有限
B. 磁盘IO开销大
C. 延迟高
D. 中间结果多
11、Hive底层所依赖的计算引擎可以是:()
A.Flink
B.MapReduce
C.Tez
D.Spark
12、下面关于Hive的描述正确的是:()
A. Hive是一个基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理
B. Hive的学习门槛比较低,因为它提供了类似于关系数据库SQL语言的查询语言——HiveQL
C. 当采用MapReduce作为执行引擎时,Hive可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身可以将HiveQL语句快速转换成MapReduce任务进行运行
D. Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据
13、关于Hive与Hadoop生态系统中其他组件的关系,下面描述正确的是:()
A. HDFS作为高可靠的底层存储,用来存储海量数据
B. MapReduce对这些海量数据进行批处理,实现高性能计算
C. 用HiveQL语句编写的处理逻辑,最终都要转化为MapReduce任务来运行
D. Hive的目标是取代HBase
14、Hive的系统架构主要包括哪几个模块:()
A. 探查模块
B. 驱动模块
C. 元数据存储模块
D. 用户接口模块
15、关于数据仓库Impala的描述正确的是:()
A. Impala是由Oracle公司开发的查询系统
B. 与Hive类似,Impala也可以直接与HDFS和HBase进行交互
C. Impala采用了与商用MPP并行关系数据库类似的分布式查询引擎,可以直接从HDFS或者HBase中用SQL语句查询数据,而不需要把SQL语句转化成MapReduce任务来执行
D. Impala和Hive采用了不同的SQL语法、ODBC驱动程序和用户接口
16、Spark的特点主要包括:( )
A. 运行速度快
B. 容易使用
C. 通用性
D. 运行模式单一
17、Spark相对于MapReduce的优点包括:()
A. Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活
B. Spark提供了内存计算,中间结果直接放到内存中,带来了更高的迭代运算效率
C.Spark同时提供了存储功能,而MapReduce不支持存储
D. Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制
18、不同的计算框架统一运行在YARN中,可以带来哪些好处:(BCD)
A. 减少了所使用的编程语言的种类
B. 计算资源按需伸缩
C. 不用负载应用混搭,集群利用率高
D. 共享底层存储,避免数据跨集群迁移
19、在实际应用中,大数据处理主要包括哪几种类型:()
A. 复杂的批量数据处理:时间跨度通常在数十分钟到数小时之间
B. 基于历史数据的交互式查询:时间跨度通常在数十秒到数分钟之间
C. 基于实时数据流的数据处理:时间跨度通常在数百毫秒到数秒之间
D.基于历史数据的流查询:时间跨度在数十秒到数分钟之间
20、下面关于Spark的运行架构的描述,正确的是:()
A. Spark运行架构包括Cluster Manager、Worker Node、Driver Program和Executor
B.Spark集群资源管理器可以是Spark自带的资源管理器,也可以是YARN或Mesos等资源管理框架
C. Spark采用“P2P架构”
D. Spark利用多线程来执行具体的任务
21下面关于RDD的描述正确的是:()
A. 一个RDD就是一个分布式对象集合
B. 一个RDD本质上是一个只读的分区记录集合
C. RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型
D. RDD不适合对于数据集中元素执行相同操作的批处理式应用,而比较适合用于需要异步、细粒度状态的应用
22、Spark的集群部署方式包括:()
A. Spark on Mesos模式
B. Spark on YARN模式
C. Spark on Kubernetes模式
D. Local模式
23、下面关于Spark SQL的描述正确的是:()
A. Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
B. Spark SQL目前支持Scala、Java编程语言,暂时不支持Python语言
C. Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责
D. Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句
24、下面关于Spark Streaming的描述正确的是:()
A. Spark Streaming是构建在Spark Core上的实时计算框架,它扩展了Spark处理大规模流式数据的能力
B. Spark Streaming可结合批处理和交互查询,适合一些需要对历史数据和实时数据进行结合分析的应用场景
C. Spark Streaming可整合多种输入数据源,如Kafka、Flume、HDFS,甚至是普通的TCP套接字
D. Spark Streaming实际上是以一系列微小批处理来模拟流计算
25、Structured Streaming包括哪两种处理模型:()
A. 微批处理
B. 高阶处理
C. 分层处理
D. 持续处理
26、关于Structured Streaming、Spark SQL、Spark Streaming,下面描述正确的是:()
A. Structured Streaming处理的数据跟Spark Streaming一样,也是源源不断的数据流
B. Spark Streaming采用的数据抽象是DataFrame,Structured Streaming采用的数据抽象是DStream
C. Structured Streaming可以使用Spark SQL的DataFrame/Dataset来处理数据流
D. Spark SQL只能处理静态的数据,而Structured Streaming可以处理结构化的数据流
A. 算法工具
B. 特征化工具
C. 流水线
D. 实用工具
28、下面关于Storm框架设计描述正确的是:()
A. Storm运行在分布式集群中,其运行任务的方式与Hadoop类似
B. 在Hadoop上运行的是MapReduce作业,而在Storm上运行的是“Topology”
C. Storm集群采用P2P架构
D. Storm采用了Zookeeper来作为分布式协调组件
29、下面关于Flink的描述正确的是:()
A. Flink和Spark一样,都是基于磁盘的计算框架
B. 当全部运行在Hadoop YARN之上时,Flink的性能甚至还要略好于Spark
C. Flink的流计算性能和Storm差不多,可以支持毫秒级的响应
D. Spark的市场影响力和社区活跃度明显超过Flink
30、Flink系统主要由哪两个组件组成:()
A. JobManager
B. TaskManager
C.JobTracker
D.TaskTracker
31、下面关于大数据编程框架Beam的描述正确的是:()
A. Beam是由微软公司贡献的Apache顶级项目
B. Beam的目标是为开发者提供一个易于使用、却又很强大的数据并行处理模型,能够支持流处理和批处理
C. Beam是一个开源的统一的编程模型,开发者可以使用Beam SDK来创建数据处理管道,然后,这些程序可以在任何支持的执行引擎上运行
D. Beam SDK定义了开发分布式数据处理任务业务逻辑的API接口,即提供一个统一的编程接口给到上层应用的开发者
32、查询分析系统Dremel的特点主要包括:()
A. Dremel是一个面向小规模数据的、稳定的系统
B. Dremel的数据模型是嵌套的
C. Dremel中的数据是用行式存储的
D. Dremel结合了Web搜索和并行DBMS的技术