Bootstrap

Spark框架概括(Spark 是什么、Spark and Hadoop、Spark or Hadoop、Spark核心模块)

1. Spark概括

1.1 Spark 是什么在这里插入图片描述

1.2 Spark and Hadoop

  • 从时间节点上来看在这里插入图片描述在这里插入图片描述

  • 从功能上来看

- hadoop在这里插入图片描述与Hadoop不同的是,Spark主要侧重于通过内存计算,以及处理优化机制加快批处理的工作负载的运行速度

Spark相比于hadoop更快一些,基于内存的数据操作,可以作为独立的集群部署,也可以和hadoop集成并取代mapreduce的计算引擎。在这里插入图片描述

1.3 Spark or Hadoop在这里插入图片描述在这里插入图片描述

由于hadoop框架出现的时间节点比较早,初衷主要用于一次性数据计算。

  • 一次性数据计算(Hadoop)
    在这里插入图片描述
  • Spark的计算流程
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

1.4 Spark核心模块在这里插入图片描述

Apache Spark Core:是整个Spark框架的核心,其他的功能模块都是基于Core来实现和完善的
Spark SQL:是Spark操作结构化数据的功能模块
Spark Streaming:是Spark对流式数据进行处理的功能模块
Spark MLlib:对机器学习相关的库做操作
Spark Graphx:对图形挖掘计算
在这里插入图片描述在这里插入图片描述

;