一、选择题
第二章
Master失效整个MapReduce重新开始
Worker失效,周期性ping命令,调度到冗余备份的其余worker
Bigtable通过一个行关键字、一个列关键字以及一个时间戳进行索引。
Bigtable性能优化:局部性群组、压缩、布隆过滤器。
EC2两种区域:地理区域和可用区域
EC2IP地址:公共IP地址、私有IP地址(NAT转换)及弹性IP地址(DHCP)。(通信机制)
弹性负载均衡、监控服务、自动缩放、服务管理控制台。
第五章
Common包含大量常用API提供了mini集群,本地库,超级用户,服务器认证,HTTP认证。
二、填空题
第一章
大数据4V+1C特征:数据量大(Volume)、多样(Variety)、快速(Velocity)、价值密度低(Value)、复杂度(Complexity)
云计算七个特点:超大规模、虚拟化、高可靠性、通用性、高可伸缩性、按需服务、极其廉价。
云计算按服务类型分三类:将基础设施作为服务IaaS、将平台作为服务PaaS、将软件作为服务SaaS。
云计算技术体系结构四层:物理资源层、资源池层、管理中间件层、SOA层 面向服务的体系结构。
第二章
GFS节点三类角色:Client客户端(应用程序专用接口、库文件)、Master主服务器(元数据、负责整个文件系统的管理)、Chunk Server数据块服务器(具体的存储工作)。
GFS4个特点:采用中心服务器模式、不缓存数据、在用户态下实现、只提供专用接口。
Bigtable三部分组成:客户端程序库、一个主服务器和多个子表服务器。
第三章
EC2的基本架构:AMI(Amazon机器映像)、实例、弹性块存储(EBS)
构建好的AMI分为EBS支持、实例存储支持两类。
S3由桶、对象、基本操作组成。对象由数据和元数据组成。
S3安全措施:身份认证、访问控制列表(五种访问权限)
第四章
Windows Azure提供了托管的、可扩展的、按需应用的计算和存储资源,同时还提供了云平台管理和动态分配资源的控制手段。
Windows Azure5个部分:计算服务、存储服务、Fabric控制器、内容分发网络CDN、Windows Azure Connect
计算服务:Web Role、Worker Role、VM Role
Windows Azure存储服务四种数据结构:Blob类型、Table类型、Queue类型、File类型
全局命名空间:账户名、分区名、对象名
体系架构:存储域和位置服务
SQL Azure关系型数据库服务三部分:数据库、报表服务、数据同步。
第七章
虚拟化技术四种实现:服务器虚拟化、存储虚拟化、网络虚拟化、桌面虚拟化。
服务器虚拟化:
①分为寄居虚拟化(虚拟化监视器VMM,安装在操作系统上)和裸机虚拟化
②底层实现包括CPU虚拟化(模拟执行、监控执行)、内存虚拟化、I/O设备虚拟化
③虚拟机动态迁移通过NFS共享,六个步骤;预迁移、预定资源、预复制、停机复制、提交、启动。内存迁移三个阶段:PUSH、Stop and Copy、Pull
④隔离技术:内存隔离、网络隔离
存储虚拟化:
存储虚拟化是指将存储网络中的各个分散且异构的存储设备按照一定策略映射成统一连续编址的逻辑存储空间,成为虚拟存储池。增加了虚拟化层。
实现三种方式:基于主机、存储设备、网络的存储虚拟化。
网络虚拟化:
核心层、接入层、虚拟机网络虚拟化。
桌面虚拟化
用户桌面的镜像文件。
第八章
Swift5种特性:高数据持久性、完全对称的系统架构、无限的可扩展性、无单点故障、简单可依赖。
第9章
云数据中心4个特征:高设备利用率、绿色节能、高可用性、自动化管理。
三、判断题
Nova是OpenStack云计算架构的控制器。
Swift提供的对象存储服务,允许对文件进行分布式存储或者检索。
Libvirt的主要目标是为各种虚拟化工具提供编程方便接口,用一种单一方式管理多种不同的虚拟化提供方式。
四、名词解释
1.1 大数据:
1.2 云计算:通过网络按需提供可动态伸缩的廉价计算服务。
2.1 GFS:Google文件系统,是一个大型的分布式文件系统。由Client,Master,Chunk Server三类角色组成。
2.2 MapReduce:分布式数据处理,是Google提出的一个软件架构,是一种处理海量数据的并行编程模式,用于大规模数据集的并行计算。
2.3 Bigtable:分布式结构化数据表,是Google开发的基于GFS和Chubby的分布式存储系统。
3.1 EC2:弹性计算云服务。是AWS(亚马逊云计算)的重要组成部分,用于提供可调节的计算容量
3.2 S3:简单存储服务,构建在Dynamo之上,用于提供任意类型文件的临时或永久性存储。,由桶和对象组成。
4.1 Windows Azure:微软云操作系统,是一个服务平台,用户利用该平台,通过互联网访问微软数据中心运行windows应用程序和存储应用程序数据,向用户提供服务。
4.2 SQL Azure:微软云关系数据库,基于SQL server,为用户提供数据应用。
5.1 Hadoop:
5.2 HDFS:分布式文件系统,主要提供高容错、高扩展、高可靠的分布式存储服务。
5.3 分布式操作系统Yarn:管理计算机资源,提供用户接口。(两方面)
6.1 ZooKeeper:类似于谷歌Chubby,机器A进程Pa与机器B进程Pb交互的中介,松耦合。奇数个,最少三个。
6.2 Hbase:类比于BigTable,开源分布式数据库。元素由行健、列(列族:限定符)和时间戳唯一确定。Master/Slave架构,主节点HMaster,从节点HRegionServer。
6.3 Pig:用来处理大规模数据集的脚本语言平台。将数据流处理脚本翻译成多个HDFS、Map和Reduce操作。
6.4 Hive:数据仓库框架,语法采用HiveQL,让Facebook内精通SQL。
6.5 Oozie:管理与组织Hadoop工作流,确定多个MR操作的执行顺序。包括JAVA或shell。
6.6 Flume:高性能、高可靠的数据传输工具,将众多机器日志数据实时导入HDFS。由Source、Channel、Sink三部分组成。
6.7 Mahout:机器学习工具,MR实现与jar包。
7.1 虚拟化技术:利用软件或固件管理程序构成虚拟化层,把物理资源映射为虚拟资源。
8.1 OpenStack:开源虚拟化平台,是一个管理计算、存储和网络资源的数据中心云计算开放平台,主要目标是管理数据中心的资源,简化资源分配。主要管理计算、存储和网络三部分资源。有三个主要服务成员:Nova计算服务、Swift对象存储服务、Glance镜像服务。
五、简答题
1.非关系型数据库与传统关系数据库的比较。
CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。
ACID,指数据库事务正确执行的四个基本要素的缩写。包含:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。
2.SimpleDB和DynamoDB的比较。
3.NameNode与DataNode
4.四种获取AMI的途径。
免费使用Amazon提供的公共AMI。
根据自身需要定制私有AMI。
向开发者付费购买AMI。
使用其他开发者分享的共享AMI
5.SQL Azure与SQL server对比。
前者突出物理管理,后者突出逻辑管理。
前者容易安装,但依赖少,语法不支持全部,后者软件硬件比较全,安装麻烦
前者运行环境稳定,服务健壮,数据备份3份。
6.Map和Reduce过程。
映射和化简。Map阶段将输入数据分割成M个片段,每一个Map操作输入是键值对集合。Map操作独立,并行执行。一个Reduce操作将每个Map操作的中间结果合并每个Reduce处理Map互不交叉。所有Reduce产生结果形成完整结果集。Reduce也可以并行执行。