1. Spark概括
1.1 Spark 是什么
1.2 Spark and Hadoop
- hadoop与Hadoop不同的是,Spark主要侧重于通过内存计算,以及处理优化机制加快批处理的工作负载的运行速度
Spark相比于hadoop更快一些,基于内存的数据操作,可以作为独立的集群部署,也可以和hadoop集成并取代mapreduce的计算引擎。
1.3 Spark or Hadoop
由于hadoop框架出现的时间节点比较早,初衷主要用于一次性数据计算。
- 一次性数据计算(Hadoop)
- Spark的计算流程
1.4 Spark核心模块
Apache Spark Core:是整个Spark框架的核心,其他的功能模块都是基于Core来实现和完善的
Spark SQL:是Spark操作结构化数据的功能模块
Spark Streaming:是Spark对流式数据进行处理的功能模块
Spark MLlib:对机器学习相关的库做操作
Spark Graphx:对图形挖掘计算