题型分布
4道简答题,一题15分,2道大题,一题20分
考试类型
开卷考试
考试内容回忆
1.1数据归约技术有哪些?并详细阐述每种技术特点?
课后习题5.4原题
1.2什么是列存储结构(column-based storage structure)?为什么列存储结 构的查询效率要远高于基于行存储结构(row-based storage structure)的关系型数据库?
课后习题14.2原题
1.3请简述Adaboost原理,从分类器内部和分类器之间两个方面说明为什么Adaboost生成了强分类器
PPT 6.2
1.4 Spark
1)宽窄依赖判定
PPT 19.5.1 例题原题
2)Spark Stage划分
PPT 19.6 例题原题
3)Spark Task 进程数
PPT 19.6 没有对应
2.1 Hbase索引与检索
给出学生成绩表格,要求查成绩
1)用RowKey查找成绩
2)画图建立二次索引表
3)解释二次索引查找步骤
PPT 13.2 没有对应例子
2.2 朴素贝叶斯分类
PPT 6.1 例子原题改数据