开卷PPT目录:6页一张A4纸排版
相关资料:1izacmVoORbLNVU9KUycSiw?pwd=2233
Lecture 1 大数据计算概论 -------------2
-
- 大数据概念 -----------2
- 大数据技术特征 -----------5
- 大数据算法特性 -----------5
- 大数据计算系统特性 -----------5
- 大数据开发技术特性 -----------6
- 大数据计算技术标准 -----------6
- 云计算概念 ------------7
Lecture 2 大数据计算体系 -----------11
2.1 计算总体架构 -----------11
2.1.1 数据存储系统 -----------11 数据建模、存储架构、访问接口
2.1.2 数据处理系统 -----------12
2.1.3 数据应用系统 -----------13
2.2 计算模式与平台 -----------14 模式、模型、架构、平台
Lecture 3 数据采集方法 -----------16
3.1 系统日志数据采集 -----------16 目的、工具、过程
3.2 网络数据采集 -----------17 爬虫原理、搜索策略、分析算法、爬虫框架
3.3 数据采集接口 -----------20 采集与分析实例-新浪微博
Lecture 4 数据预处理技术 -----------25
4.1 数据清洗 -----------26 处理数据缺失、数据不一致、数据噪声
4.2 数据集成 -----------28 模式匹配、数据冗余、数据值冲突
4.3 数据变换 -----------29 聚集、泛化/概化、规范化、属性构造
4.4 数据归约 -----------31 数据立方体聚集、维归约、相关属性子集、数据压缩、数值归约(直方图、抽样、参数回归)
4.5 离散化与概念分层生成 -----------34 自然划分分段、类别概念层次树
Lecture 5 数据分析算法
(1)数据关系 -----------38
5.1 TF-IDF算法 -----------39 词袋模型
5.2 余弦相似性 -----------40
5.4 Apriori算法 -----------41 核心、两大定理、基本流程、输出规则、缺点
5.5 PageRank算法 -----------43 步骤、优缺点
(2)分类与聚类 -----------46
6.1 朴素贝叶斯分类器 -----------46 贝叶斯定理
6.2 AdaBoost分类器 -----------47 迭代、弱分类器的线性组合、优点
6.3 支持向量机 -----------49 非线性SVM
6.4 K邻近算法 -----------50 KNN
6.5 K-Means聚类 -----------51
6.6 最大期望算法 -----------53 EM算法
(3)数据决策 -----------56
7.1 ID3算法 -----------57
7.2 C4.5算法 -----------58
7.3 CART算法 -----------59 与ID3的区别、GINI指数、裂变、剪枝
Lecture 8 文本读写技术 -----------61
8.1 读取文本文件 -----------61 txt文件
8.2 读取CSV文件 -----------63 read_csv、read_table、逐块读取
8.3 写入文本文件 -----------65 同时读取和写入
8.4 数据库的链接 -----------65
Lecture 9 数据处理技术 -----------68
9.1 合并数据集 -----------68
9.1.1 索引上的合并 -----------68
9.1.2 轴向链接 -----------70
9.1.3 合并重叠数据 -----------71
9.2 数据转换 -----------71
9.2.1 移除重复数据 -----------71 去重方法
9.2.3 数据替换方法 -----------72
9.2.6 检测异常值 -----------73
9.2.7 排列和随机采样 -----------74
Lecture 10 数据分析技术 -----------75
10.1 Numpy工具包 -----------75
10.1.1 创建数组 -----------76
10.1.2 打印数组 -----------77
10.1.3 基本运算 -----------77
10.1.6 复制和视图 -----------78 视图和浅复制、深复制
10.2 Pandas工具包 -----------79
10.2.1 Series -----------79
10.2.1 DataFrame -----------80
10.3 Scikit-Learn工具包 -----------81
Lecture 11 数据可视化技术 -----------83
11.1 Matplotlib绘图 -----------83 Pyplot折线图、散点图、柱状图、Pylab绘图
11.2 Matplotlib绘图属性 -----------84 色彩和样式、文字、线条属性、子区属性subplot和axes
11.3 Pandas绘图-----------86
Lecture 12 Hadoop生态系统 -----------91
12.1 Hadoop总体架构 -----------90
12.2 HDFS文件系统 -----------91
12.2.1 HDFS体系结构 -----------92 分布式文件系统
12.2.2 HDFS存储结构 -----------92 Fslmage、Editlog
12.2.3 HDFS文件读写机制 -----------94
12.2.4 HDFS数据容错与恢复 -----------95 多副本方式进行冗余存储、机架感知副本存放策略、检测和恢复机制
12.3 资源管理与作业调度 -----------96
12.3.1 Zookeeper -----------97 统一命名、配置管理、集群管理、分布锁、分布式消息队列
12.3.2 作业调度与工作流引擎Oozie -----------101
12.3.3 集群资源管理框架YARN -----------103
Lecture 13 HBase分布式存储架构 -----------108
13.1 分布式存储架构 -----------108
13.1.1 HBase系统架构 -----------108 CAP原则、Region、Store、Hfile
13.1.2 Hbase数据模型与存储模式 -----------111 二次索引表机制
13.2 HBASe索引与检索 -----------114
Lecture 14 MapReduce计算模型 -----------116
14.1 分布式并行计算系统 -----------116 MIMD模型、Cluster计算架构
14.2 MapReduce计算架构 -----------117
14.3 键值对与输入格式 -----------119
14.3.1 文件分片 -----------119
14.3.2 Map数目设置 -----------120
14.3.3 输入格式处理 -----------120 InputFormat类
14.4 映射与化简 -----------121 Map/Shuffle/Reduce、Partition、Sort-Combine-Merge
14.5 实际算例 -----------124
Lecture 15 图并行计算框架 -----------126
15.1 图计算基本概念 -----------126
15.2 BSP模型 -----------127 超步(SuperStep)
15.3 Pregel图并行计算框架 -----------128 Combiner(合并)、Aggregator(聚合)
15.4 开源框架Hama -----------130
15.4.1 Hama架构 -----------130 BSPMaster、GroomServer、Zookeeper
15.4.2 Hama作业流程 -----------132
15.4.3 作业调度策略 -----------134 FCFS作业调度器
Lecture 16 流计算模型 -----------136
16.1 流计算模型 -----------136
16.1.1 流计算系统模型 -----------136 系统吞吐率、系统响应时延
16.2 三种流计算模型 -----------137
16.2.1 Storm的Topology模型 -----------137
16.2.2 Spark的DStream模型 -----------139
16.2.3 Samza的Partitioned Stream模型 -----------139
16.2.4 Flink -----------139
16.3 总结对比 -----------139
Lecture 17 Storm计算架构 -----------140
17.1 Storm逻辑架构 -----------140 Tuple、Stream、Spout、Bolt、Stream Grouping、Topology
17.2 Storm系统架构 -----------141
17.3 Storm工作机制 -----------142
17.3.1 Topology提交与执行 -----------142
17.3.2 Tuple Tree的构成 -----------143
17.3.3 消息发送ACK机制 -----------143
17.3.4 Acker算法 -----------143
17.3.5 ACK关闭 -----------144
17.3.6 容错机制 -----------144
17.4 WordCount算例 -----------145
Lecture 18 内存计算模型 -----------147
18.1 分布式缓存体系 -----------146
18.1.1 分布式缓存架构 -----------147
18.1.2 内存技术 -----------147 数据压缩存储、列存储结构、数据表分区、只插入差异数据
18.1.3 Memchache工作机制 -----------149
18.1.4 Memchache工作流程 -----------149
18.1.5 Memchache计算架构 -----------149
18.1.6 数据存储的一致性Hash算法 -----------150
18.2 内存数据库 -----------151
18.2.1 内存数据库计算架构 -----------151 全内存架构、读写分离架构、混合分区架构
18.2.2 SAP HANA -----------152
18.3 内存云MenCloud -----------152
Lecture 19 Spark内存计算模型 -----------155 MapReduce和Spark对比
19.1 Spark计算架构 -----------156
19.2 Spark运行模式 -----------156
19.3 RDD数据模型 -----------156
19.4 RDD算子 -----------157
19.5 Dependency与Lineage -----------157
19.5.1 Dependency -----------158窄依赖算例:join
19.5.2 血缘关系(Lineage)
19.6 Spark调度机制 -----------159
19.6.1 Spark双层多级调度模型 -----------160
19.6.2 Job调度算法 -----------160
Lecture 20 ElasticSearch 分布式搜索引擎 -----------162
20.1 ElasticSearch计算架构 -----------163
20.2 ElasticSearch逻辑架构 -----------164
20.2.1 索引 -----------164 正向索引、反向索引、倒排索引、单词词典
20.2.2 Lucene搜索 -----------167 B-Tree/B+Tree结构、ES构建、FST
20.3 ElasticSearch物理架构 -----------169
20.3.1 ElasticSearch集群架构 -----------169
20.3.2 部署拓扑 -----------169 简单集群部署、大规模集群部署、ES集群
20.4 存储架构 -----------170
20.4.1 客户端读写数据 -----------172
20.4.2 分片write/create实现原理 -----------172 Shard
20.4.4 分片read实现原理 -----------173
20.5 ES横向扩容与容错机制 -----------174
20.5.1 ES集群横向扩容 -----------174
20.5.2 容错机制 -----------174 master选举、replica容错、数据恢复
Lecture 21 云计算基础
21.1 什么是云计算 -----------176
21.2 云计算发展路线及演进 -----------177
21.3 云计算的概念模型 -----------177
21.4 云计算原理 -----------178
21.5 云计算应用 -----------180