【大数据学习 | 面经】Spark为什么比MR计算更快

1. 内存计算与数据缓存：
- Spark支持将中间结果缓存在内存中(cache算子可以将数据缓存在内存中，避免大量的重复计算)，减少对磁盘I/O的依赖。对于需要反复迭代的数据处理任务，如机器学习算法，这种特性可以极大提高效率。而Hadoop MR每次执行shuffle操作时都会将数据写入磁盘，增加了读写延迟。

2. DAG执行模型：
- Spark采用了有向无环图（Directed Acyclic Graph, DAG）的任务调度模型，它可以将多个操作组合成一个复杂的作业流，并优化整个流程中的任务执行顺序。相比之下，MR是基于固定的两阶段（Map和Reduce）模型，无法像Spark那样灵活地进行任务间的优化。

3. 减少冗余操作：
- Spark能够更好地消除冗余的计算步骤，例如通过其丰富的算子集合避免不必要的shuffle操作。MR由于其固有的架构，在某些情况下会强制执行额外的MapReduce阶段，即使这些阶段并不总是必要的。

4. JVM优化：
- 在Spark中，Executor启动一次JVM后，后续的任务可以在同一个进程中以线程的方式运行，减少了频繁启动JVM带来的开销。而在MR中，每个Task都需要单独启动新的JVM实例，这导致了更高的启动成本。

5. 资源申请粒度：
- Spark采用粗粒度的资源申请方式，即一旦申请到资源就不会轻易释放，直到整个应用程序结束。这种方式虽然可能导致资源利用率不高，但对于长时间运行的应用来说，它能提供更稳定的性能表现。相反，MR是以细粒度的方式按需申请资源，但这也意味着更多的资源管理和分配开销。

6. **高级API和库支持**：
- Spark提供了比MR更丰富、更高层次的API，以及一系列内置的库（如MLlib、GraphX等），使得开发者可以更容易编写高效的程序。此外，这些高级抽象有助于自动优化底层实现，进一步提升了性能。

综上所述，Spark之所以能在很多场景下表现出优于MR的速度，是因为它结合了内存计算的优势、先进的任务调度机制、精简的操作流程、JVM级别的性能优化以及良好的开发体验。

【大数据学习 | 面经】Spark为什么比MR计算更快

悦读