Bootstrap

物联网架构之Hadoop

hadoop体系结构

Hadoop是一个开源的分布式计算平台,主要用于存储和处理大规模数据集。其核心架构包括以下几个关键组件:

1. Hadoop Distributed File System (HDFS)

HDFS 是Hadoop的分布式文件系统,用于存储大数据集。它具有以下特点:

  • 主从架构:包括一个NameNode(主节点)和多个DataNode(从节点)。
  • 数据块存储:将大文件分割成多个数据块,每个数据块通常大小为128MB或256MB,并分布存储在多个DataNode上。
  • 冗余备份:每个数据块默认有三个副本(副本数量可配置),存储在不同的DataNode上,以提高数据的可靠性和容错性。

2. Yet Another Resource Negotiator (YARN)

YARN 是Hadoop的资源管理器,负责集群资源的管理和调度。它包括以下组件:

  • ResourceManager:集群的主节点,负责分配资源给运行在集群上的应用程序。
  • NodeManager:运行在集群中每个节点上的代理,负责监控和管理该节点上的容器(Container),并向ResourceManager报告资源使用情况。
  • ApplicationMaster:每个应用程序(如MapReduce任务)的特定实例,负责与ResourceManager协商资源,并与NodeManager协调执行任务。

3. MapReduce

MapReduce 是Hadoop的并行编程模型和处理框架,用于大规模数据集的并行计算。

  • Map阶段:将输入数据分割成若干数据块,每个数据块交给一个Mapper任务处理。
  • Shuffle阶段:将Mapper输出的结果根据Key重新分区,发送到Reducer节点上。
  • Reduce阶段:Reducer节点对Shuffle阶段的数据进行汇总和计算,生成最终的输出结果。

4. Hadoop Common

Hadoop Common 包含了Hadoop的一些公共工具、库和支持类。

  • Hadoop Utilities:提供了一系列命令行工具,用于管理Hadoop集群、操作HDFS文件系统等。
  • Hadoop Libraries:提供了一些Java库,用于与HDFS和YARN交互、执行MapReduce任务等。

5. Hadoop Ecosystem

除了上述核心组件外,Hadoop生态系统还包括许多相关项目和工具,如:

  • Apache Hive:用于数据仓库和SQL查询的数据仓库软件。
  • Apache Pig:用于大数据分析的高级编程平台。
  • Apache HBase:非关系型分布式数据库。
  • Apache Spark:基于内存的计算框架,可以与Hadoop集成使用。
  • Apache Kafka:分布式流处理平台,用于处理实时数据流。

总结

Hadoop的体系结构设计旨在处理和分析大数据集,通过分布式存储(HDFS)、资源管理(YARN)、并行计算(MapReduce)等核心组件,提供了一种可靠、可扩展的大数据解决方案。其生态系统的丰富性和灵活性使得Hadoop能够适应不同类型和规模的数据处理需求。

hadoop的核心结构

Hadoop的核心结构主要包括以下几个关键组件:

  1. Hadoop Distributed File System (HDFS)

    • Hadoop分布式文件系统,用于存储大规模数据集。
    • 主要包括一个NameNode(主节点)和多个DataNode(从节点)。
    • 数据以数据块的形式存储,每个数据块通常大小为128MB或256MB,并在多个DataNode上复制以提高可靠性和容错性。
  2. Yet Another Resource Negotiator (YARN)

    • Hadoop的资源管理器,负责集群资源的管理和调度。
    • 包括ResourceManager(资源管理器)、NodeManager(节点管理器)和ApplicationMaster(应用程序主管)。
    • ResourceManager负责分配集群资源,NodeManager负责单个节点上容器的管理,ApplicationMaster协调应用程序的执行。
  3. MapReduce

    • Hadoop的并行编程模型和处理框架,用于大规模数据集的并行计算。
    • 分为Map阶段、Shuffle阶段和Reduce阶段,每个阶段都由特定的任务(如Mapper和Reducer)负责处理和计算数据。
  4. Hadoop Common

    • 包含Hadoop的公共工具、库和支持类。
    • 提供了一些命令行工具和Java库,用于操作和管理Hadoop集群、执行文件系统操作等。

这些核心组件构成了Hadoop的基础架构,支持其在大数据处理和分析方面的高效能力和可扩展性。同时,Hadoop生态系统还包括许多其他项目和工具,如Hive、Pig、HBase等,为各种数据处理需求提供了多样化的解决方案。

hadoop子项目

Hadoop生态系统包含了许多子项目,每个子项目都解决不同的大数据处理和管理问题。以下是一些主要的Hadoop子项目:

  1. Apache Hive

    • 用于数据仓库和SQL查询的数据仓库软件。
    • 提供了类似于SQL的查询语言HiveQL,可用于在Hadoop上执行数据分析。
  2. Apache Pig

    • 提供了高级的数据流语言和执行框架,用于在Hadoop上执行大规模数据分析任务。
    • Pig Latin语言允许用户描述数据分析任务,然后由Pig执行。
  3. Apache HBase

    • 非关系型分布式数据库,用于实时读写大数据集。
    • 提供了高性能、可扩展的数据存储解决方案,适合需要快速访问的应用场景。
  4. Apache Sqoop

    • 用于在Apache Hadoop和结构化数据存储(如关系数据库)之间传输数据的工具。
    • 支持从关系数据库导入数据到Hadoop HDFS,也支持将数据从HDFS导出到关系数据库。
  5. Apache Flume

    • 分布式、可靠的大数据采集、聚合和传输系统。
    • 主要用于将日志数据等实时数据从源头采集到Hadoop生态系统中的HDFS或HBase等存储系统。
  6. Apache Kafka

    • 分布式流处理平台,用于处理实时数据流。
    • Kafka能够处理和存储大量数据流,并支持高吞吐量的数据发布和订阅。
  7. Apache Spark

    • 开源的通用内存计算系统,提供了高级API,用于并行数据处理。
    • Spark可以与Hadoop集成使用,提供了比MapReduce更快的数据处理速度和更丰富的功能。
  8. Apache Zeppelin

    • 开源的数据分析和可视化Web应用程序,支持多种语言(如Scala、Python、SQL等)。
    • Zeppelin可以与Hadoop生态系统集成,帮助用户进行数据探索、分析和可视化。
  9. Apache Oozie

    • 用于协调Hadoop作业的工作流调度系统。
    • Oozie允许用户定义工作流,以便在特定条件下执行Hadoop作业和其他数据处理任务。

这些子项目扩展了Hadoop的功能和用途,使其能够适应更广泛的大数据处理需求,从数据采集和存储到实时流处理和复杂的数据分析。

MapReduce概述

MapReduce是一种编程模型和处理框架,用于处理大规模数据集在分布式计算环境中的并行计算。由Google提出,并由Apache开发的Hadoop项目实现了这一模型。

概述:

  1. 分布式计算模型

    • MapReduce适用于解决大规模数据集的并行处理问题,充分利用分布式计算集群中的多个计算节点来加速处理。
    • 数据集被划分为多个数据块,并在集群中的各个节点上并行处理。
  2. 主要组成部分

    • Map阶段:在这个阶段,输入数据被划分成若干个独立的数据块,并由多个Mapper任务并行处理。每个Mapper任务处理输入数据的一个部分,并生成一个中间键值对(key-value pair)列表作为输出。

    • Shuffle阶段:MapReduce框架内部自动处理的阶段。在这个阶段,框架将Mapper输出的中间键值对按照键(key)进行分区、排序和复制,以便将相同键的所有值发送到相同的Reducer任务。这一阶段的目标是将中间数据重新分配到Reducer节点上。

    • Reduce阶段:在这个阶段,Reducer任务接收Shuffle阶段发送过来的数据分区,并对它们进行聚合处理。Reducer任务会处理来自不同Mapper的数据,按照键(key)合并和归约成最终的输出结果。

  3. 特点和优势

    • 容错性:MapReduce框架通过在多个节点上复制数据和任务,实现了高可靠性和容错性,能够处理节点故障或数据丢失的情况。

    • 可扩展性:通过增加计算节点,MapReduce可以线性扩展,处理更大规模的数据集。

    • 简化编程:MapReduce模型隐藏了分布式系统中复杂的细节,程序员只需关注数据的转换和计算逻辑,而无需关注底层的并行化和分布式处理。

  4. 应用场景

    • MapReduce广泛应用于大数据处理领域,如数据挖掘、日志分析、搜索引擎索引构建等需要大规模数据处理和并行计算的场景。
  5. 实现

    • Apache Hadoop实现了MapReduce框架,并成为其生态系统的核心组件之一。除了Hadoop,还有其他开源和商业平台实现了类似的MapReduce框架,如Apache Spark的RDD(Resilient Distributed Dataset)。

总之,MapReduce通过将大数据集分解为小块,并在多个计算节点上并行处理,有效提高了大规模数据处理的效率和可扩展性,成为了处理和分析大数据的重要工具之一。

MapReduce框架设计

MapReduce框架的设计基于一种简单而强大的并行计算模型,旨在处理大规模数据集。以下是MapReduce框架的关键设计特点和流程:

设计要素:

  1. Map函数

    • 输入:Map函数接收输入数据集,将其分割为若干个小的数据块。
    • 处理:每个Map任务独立地处理分配给它的数据块。Map函数通过对输入数据的处理生成中间键值对(key-value pairs)列表作为输出。这些中间键值对不一定和输入数据的格式相同。
  2. Shuffle阶段

    • 分区和排序:在Map阶段完成后,MapReduce框架会自动对Mapper输出的中间键值对进行分区和排序。
    • 数据复制:相同键的所有值会被复制到相同的Reducer节点上,以便在Reduce阶段进行处理。
  3. Reduce函数

    • 输入:Reduce函数接收来自Shuffle阶段的数据分区,每个Reduce任务处理一个或多个键的数据。
    • 处理:Reduce函数对相同键的所有值进行聚合、合并和归约操作,生成最终的输出结果。

框架工作流程:

  1. 作业提交

    • 用户通过提交MapReduce作业来启动计算过程。作业包括指定输入数据路径、Map函数、Reduce函数以及输出数据路径等信息。
  2. 任务调度

    • 框架将作业分解为多个Map任务和Reduce任务,并将它们分配给可用的计算节点(通常是一个集群)上的空闲资源。
  3. Map阶段

    • 每个Map任务独立处理分配给它的数据块,并生成中间键值对。
  4. Shuffle阶段

    • 中间键值对按照键进行分区、排序和复制,以便将相同键的所有值发送到相同的Reducer节点。
  5. Reduce阶段

    • 每个Reduce任务接收来自不同Mapper输出的数据分区,并对它们进行聚合操作生成最终的输出。
  6. 输出

    • Reduce任务将处理后的结果写入指定的输出路径,作为最终的MapReduce作业的结果。

优化和扩展:

  • 容错性:MapReduce框架通过备份和任务重新执行来处理节点故障和数据丢失情况,保证了作业的可靠性和稳定性。

  • 数据局部性:尽可能在计算节点上处理数据,减少数据移动和网络开销,提高处理效率。

  • 框架生态系统:MapReduce框架通常与分布式文件系统(如HDFS)结合使用,以管理大数据的存储和访问。

MapReduce框架的设计使得它成为处理大规模数据集的有效工具,能够利用分布式计算集群的潜力,实现并行化处理和高性能计算。

;