Bootstrap

大数据分析与智能计算PPT目录

开卷PPT目录:6页一张A4纸排版

相关资料:1izacmVoORbLNVU9KUycSiw?pwd=2233

Lecture 1 大数据计算概论 -------------2

    1. 大数据概念 -----------2
    2. 大数据技术特征 -----------5
      1. 大数据算法特性 -----------5
      2. 大数据计算系统特性 -----------5
      3. 大数据开发技术特性 -----------6
      4. 大数据计算技术标准 -----------6
    3. 云计算概念 ------------7

Lecture 2 大数据计算体系 -----------11

2.1 计算总体架构 -----------11

2.1.1 数据存储系统 -----------11 数据建模、存储架构、访问接口

2.1.2 数据处理系统 -----------12

2.1.3 数据应用系统 -----------13

2.2 计算模式与平台 -----------14 模式、模型、架构、平台
Lecture 3 数据采集方法 -----------16

3.1 系统日志数据采集 -----------16 目的、工具、过程

3.2 网络数据采集 -----------17 爬虫原理、搜索策略、分析算法、爬虫框架

3.3 数据采集接口 -----------20 采集与分析实例-新浪微博

Lecture 4 数据预处理技术 -----------25

4.1 数据清洗 -----------26 处理数据缺失、数据不一致、数据噪声

4.2 数据集成 -----------28 模式匹配、数据冗余、数据值冲突

4.3 数据变换 -----------29 聚集、泛化/概化、规范化、属性构造

4.4 数据归约 -----------31 数据立方体聚集、维归约、相关属性子集、数据压缩、数值归约(直方图、抽样、参数回归)

4.5 离散化与概念分层生成 -----------34 自然划分分段、类别概念层次树

Lecture 5 数据分析算法

(1)数据关系 -----------38

5.1 TF-IDF算法 -----------39 词袋模型

5.2 余弦相似性 -----------40

5.4 Apriori算法 -----------41 核心、两大定理、基本流程、输出规则、缺点

5.5 PageRank算法 -----------43 步骤、优缺点

(2)分类与聚类 -----------46

6.1 朴素贝叶斯分类器 -----------46 贝叶斯定理

6.2 AdaBoost分类器 -----------47 迭代、弱分类器的线性组合、优点

6.3 支持向量机 -----------49 非线性SVM

6.4 K邻近算法 -----------50 KNN

6.5 K-Means聚类 -----------51

6.6 最大期望算法 -----------53 EM算法

(3)数据决策 -----------56

7.1 ID3算法 -----------57

7.2 C4.5算法 -----------58

7.3 CART算法 -----------59 与ID3的区别、GINI指数、裂变、剪枝

Lecture 8 文本读写技术 -----------61

8.1 读取文本文件 -----------61 txt文件

8.2 读取CSV文件 -----------63 read_csv、read_table、逐块读取

8.3 写入文本文件 -----------65 同时读取和写入

8.4 数据库的链接 -----------65

Lecture 9 数据处理技术 -----------68

9.1 合并数据集 -----------68

9.1.1 索引上的合并 -----------68

9.1.2 轴向链接 -----------70

9.1.3 合并重叠数据 -----------71

9.2 数据转换 -----------71

9.2.1 移除重复数据 -----------71 去重方法

9.2.3 数据替换方法 -----------72

9.2.6 检测异常值 -----------73

9.2.7 排列和随机采样 -----------74

Lecture 10 数据分析技术 -----------75

10.1 Numpy工具包 -----------75

10.1.1 创建数组 -----------76

10.1.2 打印数组 -----------77

10.1.3 基本运算 -----------77

10.1.6 复制和视图 -----------78 视图和浅复制、深复制

10.2 Pandas工具包 -----------79

10.2.1 Series -----------79

10.2.1 DataFrame -----------80

10.3 Scikit-Learn工具包 -----------81

Lecture 11 数据可视化技术 -----------83

11.1 Matplotlib绘图 -----------83 Pyplot折线图、散点图、柱状图、Pylab绘图

11.2 Matplotlib绘图属性 -----------84 色彩和样式、文字、线条属性、子区属性subplot和axes

11.3 Pandas绘图-----------86

Lecture 12 Hadoop生态系统 -----------91

12.1 Hadoop总体架构 -----------90

12.2 HDFS文件系统 -----------91

12.2.1 HDFS体系结构 -----------92 分布式文件系统

12.2.2 HDFS存储结构 -----------92 Fslmage、Editlog

12.2.3 HDFS文件读写机制 -----------94

12.2.4 HDFS数据容错与恢复 -----------95 多副本方式进行冗余存储、机架感知副本存放策略、检测和恢复机制

12.3 资源管理与作业调度 -----------96

12.3.1 Zookeeper -----------97 统一命名、配置管理、集群管理、分布锁、分布式消息队列

12.3.2 作业调度与工作流引擎Oozie -----------101

12.3.3 集群资源管理框架YARN -----------103

Lecture 13 HBase分布式存储架构 -----------108

13.1 分布式存储架构 -----------108

13.1.1 HBase系统架构 -----------108 CAP原则、Region、Store、Hfile

13.1.2 Hbase数据模型与存储模式 -----------111 二次索引表机制

13.2 HBASe索引与检索 -----------114

Lecture 14 MapReduce计算模型 -----------116

14.1 分布式并行计算系统 -----------116 MIMD模型、Cluster计算架构

14.2 MapReduce计算架构 -----------117

14.3 键值对与输入格式 -----------119

14.3.1 文件分片 -----------119

14.3.2 Map数目设置 -----------120

14.3.3 输入格式处理 -----------120 InputFormat类

14.4 映射与化简 -----------121 Map/Shuffle/Reduce、Partition、Sort-Combine-Merge

14.5 实际算例 -----------124

Lecture 15 图并行计算框架 -----------126

15.1 图计算基本概念 -----------126

15.2 BSP模型 -----------127 超步(SuperStep)

15.3 Pregel图并行计算框架 -----------128 Combiner(合并)、Aggregator(聚合)

15.4 开源框架Hama -----------130

15.4.1 Hama架构 -----------130 BSPMaster、GroomServer、Zookeeper

15.4.2 Hama作业流程 -----------132

15.4.3 作业调度策略 -----------134 FCFS作业调度器

Lecture 16 流计算模型 -----------136

16.1 流计算模型 -----------136

16.1.1 流计算系统模型 -----------136 系统吞吐率、系统响应时延

16.2 三种流计算模型 -----------137

16.2.1 Storm的Topology模型 -----------137

16.2.2 Spark的DStream模型 -----------139

16.2.3 Samza的Partitioned Stream模型 -----------139

16.2.4 Flink -----------139

16.3 总结对比 -----------139

Lecture 17 Storm计算架构 -----------140

17.1 Storm逻辑架构 -----------140 Tuple、Stream、Spout、Bolt、Stream Grouping、Topology

17.2 Storm系统架构 -----------141

17.3 Storm工作机制 -----------142

17.3.1 Topology提交与执行 -----------142

17.3.2 Tuple Tree的构成 -----------143

17.3.3 消息发送ACK机制 -----------143

17.3.4 Acker算法 -----------143

17.3.5 ACK关闭 -----------144

17.3.6 容错机制 -----------144

17.4 WordCount算例 -----------145

Lecture 18 内存计算模型 -----------147

18.1 分布式缓存体系 -----------146

18.1.1 分布式缓存架构 -----------147

18.1.2 内存技术 -----------147 数据压缩存储、列存储结构、数据表分区、只插入差异数据

18.1.3 Memchache工作机制 -----------149

18.1.4 Memchache工作流程 -----------149

18.1.5 Memchache计算架构 -----------149

18.1.6 数据存储的一致性Hash算法 -----------150

18.2 内存数据库 -----------151

18.2.1 内存数据库计算架构 -----------151 全内存架构、读写分离架构、混合分区架构

18.2.2 SAP HANA -----------152

18.3 内存云MenCloud -----------152

Lecture 19 Spark内存计算模型 -----------155 MapReduce和Spark对比

19.1 Spark计算架构 -----------156

19.2 Spark运行模式 -----------156

19.3 RDD数据模型 -----------156

19.4 RDD算子 -----------157

19.5 Dependency与Lineage -----------157

19.5.1 Dependency -----------158窄依赖算例:join

19.5.2 血缘关系(Lineage)

19.6 Spark调度机制 -----------159

19.6.1 Spark双层多级调度模型 -----------160

19.6.2 Job调度算法 -----------160

Lecture 20 ElasticSearch 分布式搜索引擎 -----------162

20.1 ElasticSearch计算架构 -----------163

20.2 ElasticSearch逻辑架构 -----------164

20.2.1 索引 -----------164 正向索引、反向索引、倒排索引、单词词典

20.2.2 Lucene搜索 -----------167 B-Tree/B+Tree结构、ES构建、FST

20.3 ElasticSearch物理架构 -----------169

20.3.1 ElasticSearch集群架构 -----------169

20.3.2 部署拓扑 -----------169 简单集群部署、大规模集群部署、ES集群

20.4 存储架构 -----------170

20.4.1 客户端读写数据 -----------172

20.4.2 分片write/create实现原理 -----------172 Shard

20.4.4 分片read实现原理 -----------173

20.5 ES横向扩容与容错机制 -----------174

20.5.1 ES集群横向扩容 -----------174

20.5.2 容错机制 -----------174 master选举、replica容错、数据恢复

Lecture 21 云计算基础

21.1 什么是云计算 -----------176

21.2 云计算发展路线及演进 -----------177

21.3 云计算的概念模型 -----------177

21.4 云计算原理 -----------178

21.5 云计算应用 -----------180

;