Bootstrap

大数据分析与挖掘笔记(1)

第一章 绪论
大数据特点:4V
容量Volume 多样性Variety 速度Velocity 价值Value

数据分析时用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论并对数据加以详细研究和概括总结的过程。
分为三个层次:
描述分析,预测分析,规范分析
大数据分析时指对规模巨大的数据进行分析,是从大数据到信息、再到知识的关键步骤
数据挖掘是指从数据集合中提取人们感兴趣的知识,这些知识是隐含的,事先未知的,潜在有用的信息。
提取出来的知识一般可表示为概念、规则、规律、模式等形式。

大数据分析和挖掘的步骤:
1 任务目标的确定
2 目标数据集的提取
3 数据预处理
4 建立适当的数据分析和挖掘模型
5 模型的解释和评估
6 知识的应用

数据挖掘的主要功能
1 对数据的统计分析与特征描述
2 关联规则挖掘和相关性分析
3 分类与回归
4 聚类分析
5 异常检测或离群点分析

大数据分析与挖掘工具
1 Sklearn
对于一些常用的机器学习方法进行封装,只需要简单的调用Sklearn里的模块就可以实现大多数机器学习任务。
机器学习任务包括:
分类 回归 聚类 数据降维 数据预处理
常用的分类器:
KNN 贝叶斯 线性回归 逻辑回归 决策树 随机森林 GBDT

2 Spark ML
通用内存并行计算框架,常用于构建大型的、低延迟的数据分析应用程序。
目前spark已经拥有了实时计算、批处理、机器学习算法库、SQL、流计算等模块。
MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、降维等,同时还包括底层的优

;