Bootstrap

最新数据中台平台建设方案

​声明

因转载众多,无法找到真正来源,如标错来源,或对于文中所使用的图片、文字、链接中所包含的软件/资料等,如有侵权,请跟我们联系删除,谢谢。将在收到信息后第一时间进行删除。参考资料来源网络,仅用于行业知识分享,供个人学习参考,不得作商业用途。

更多参考公众号:优享智库

目录

1. 数据中台平台建设方案 2

1.1. 总体建设方案 2

1.1.1. 大数据平台-TDH 2

1.1.2. 云操作系统-TOS 3

1.1.3. 大数据平台产品优势 7

1.1.4. 大数据平台性能优化 12

1.2. 大数据集成平台 22

1.2.1. 数据采集层建设 22

1.2.2. 数据存储层建设 32

1.2.3. 数据交换层建设 41

1.2.4. 数据管理层建设 62

1.2.5. 资源管理层建设 76

1.3. 大数据计算平台 82

1.3.1. 数据计算层建设 82

1.4. 大数据开发平台 138

1.4.1. 大数据平台可视化工具 138

1.4.2. 大数据平台集成能力 183

1.5. 大数据运维平台 184

1.5.1. 大数据平台运维 184

1.5.2. 大数据平台安全性 218

1.5.3. 大数据平台高可用性 227

1.5.4. 大数据平台开放性 230

1.5.5. 大数据平台兼容性 231

数据中台建设方案

总体建设方案

通过建立大数据集成平台、大数据计算平台、大数据开发平台及大数据运维平台来满足客户大数据应用平台服务建设的要求。

大数据平台-TDH

云操作系统-TOS

未来企业对于构建统一的企业大数据平台(Data Hub)来驱动各种业务具有强烈需求,统一的企业大数据平台需要提供以下功能:

资源弹性共享—提高资源利用率

  1. 灵活部署:支持灵活部署大数据应用和其他常规应用

  2. 资源调度:具备自动扩容和自动修复功能

  3. 服务发现:具备集中式的仓库

隔离性—保障服务质量和安全性

  1. 数据隔离:包括数据源、访问模式等

  2. 计算隔离:隔离CPU、内存、网络、磁盘IO等

TOS满足了以上企业大数据平台的需要,支持对TDH的一键式部署、扩容、缩容,同时也允许其他服务和大数据服务共享集群,从而提高资源的使用率。TOS创新的抢占式资源调度模型能在保障实时业务的同时,提高集群空闲时的资源占用,让批量作业和实时业务在互不干扰的情况下分时共享计算资源。

另外,在TOS上运行的TDH还引入微服务的架构,显著地降低了用户部署环境对TDH稳定性的影响,提高了部署的可用性,并且能让用户在不停机的前提下,享受到将来更新版本的升级以及修复。

TOS由以下几个部分组成:

大数据集成平台

大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。采集方式包含流方式、批量导入方式、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化数据。

数据采集层负责实现内外部结构化数据、非结构化数据和流数据的自动化采集,遵从统一数据交换架构,完成数据采集相关工具、组件的安装、部署和集成,利用数据调度和采集工具将数据源数据导入大数据基础平台中。

数据接入多样化

在Oracle、DB2、Mysql等传统关系型数据库以及MongoDB等NoSQL数据库上的产生结构化数据需要迁移到Hadoop平台上Inceptor表、Hyperbase表或者Search表中进行数据分析或者检索,TDH上支持各类结构化数据的加载,支持灵活通用的数据格式描述,包括数据包含的字段、各字段的分隔符、字段类型等。支持传输的带分隔符的元组序列,每个元组的字段结构相同,由指定的分隔符分隔。支持的字段类型包括:整数(最长8字节)、浮点数、字符串、日期、时间等。在Inceptor中定义相关的表结构,Inceptor中支持整形、浮点数、字符串以及日期和时间等常用的简单字段类型以及Map、Array、Struct等复杂的数据类型。

业务系统定义数据格式,数据源(数据库或者结构结构化文件),数据存储端(HDFS、Search、Holodesk、Hyperbase等),数据调度方式,数据同步方式等,TDH上根据定义的数据加载方式为该任务自动配置数据处理的数据源、中间件(Sqoop、TDA、API/REST API、FTPOverHDFS、JDBC/ODBC、Flume或Kafka等)、存储以及处理方式等,启动相应的Oozie工作流任务或者中间件的调度任务,并对数据的加载、传输以及处理入库全流程进行监控和记录。

数据加载方式

批量模式

批量模式用于在平台建设完成初期进行历史数据的迁移,将大量的基础数据和历史数据导入平台集群。可通过sqoop等ETL工具将数据导入到HDFS或Hyperbase中;同样可通过bulkload工具将批量数据导入到Hyperbase中;也可以直接将数据直接传入HDFS,其后可以通过建立外表的方式对数据进行分析。

增量模式

增量模式用于上线后将指定周期时间间隔(如每天,每小时或每10分钟)内的数据导入平台,可通过sqoop的增量导入等模式进行。对于与Oracle关系型数据库的实时同步,平台提供与Oracle Golden Gate的接入接口,通过解析Oracle的日志,采用TDT进行导入,不增加生产库任何负担,将新增的记录实时同步到大数据平台。

准实时接入模式

某些场景下,普通的T+1模式已经无法满足业务系统的需求,需要进行准实时同步,准实时同步是指将数据从传统的关系型数据库实时同步到大数据平台上,这样客户可以实时或者准实时地在大数据平台上进行数据分析。借助Oralce GoldenGate(OGG)、IBM Datastage Data Replication (CDC)等软件的支持,这些软件实时地读取关系数据库的日志记录,将这些日志记录写成文件记录到本地(部分新版本可直接把文件传送到HDFS上)。

Transwarp Data Transporter是星环提供的一款数据整合工具,能够在秒级将数据从RDBMS同步到TDH,同时支持多种格式的文件数据,以及去重、聚合、关联等在内丰富的数据转换操作。根据具体配置策略,定时去检查对应HDFS目录或者由某些调度程序实时监控HDFS并调起TDT,TDT然后将这些日志文件按照一定的处理逻辑,将日志文件识别(如B、A、U、I、D等)并进行转译将记录同步到大数据平台Inceptor或者大数据平台Hyperbase中去。

Transporter主要具有以下几个特性,首先它支持多种数据源,比如传统的关系型数据库、系统产生的日志文件、Teradata和开源Hadoop等等,其次它具有可视化的任务编辑和监控功能,并且支持用户自定义数据的转换逻辑,具有较好的灵活性。此外,Transporter在数据导入的过程支持数据事务操作同步,保证了导入过程中数据的一致性。Transporter还具有数据过滤和清洗功能,能够与DataStage等数据同步工具对接,准实时地导入增量数据。

实时接入模式

业务平台实时产生的结构化日志或者消息通过Flume分布式日志实时采集工具加载到TDH平台上HDFS、Search、Hyperbase或者Kafka数据队列中。Flume是提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

星环大数据平台TDH支持通过Flume自定义数据接口以及数据的简单处理,并将处理后的数据加载到指定的存储端。

流数据采集可通过高吞吐、高可靠的分布式消息队列缓存Kafka及flume来实现。Kafka可以用作数据缓冲队列,作为流处理的数据源。Transwarp Stream作为Kafka的消费者,使用StreamSQL对数据进行处理。在万兆网络,使用双副本的条件下,对于高效模式单台数据总线服务器支持的业务数据加载速度在300MB/s及以上,吞吐能力可以随集群规模线性扩展。对于可靠模式支持的业务数据单节点加载速度25M/s及以上,可以线性扩展至网络传输的极限。高效模式下数据丢失率在万分之一以内。可靠模式下加载数据要求与输入数据一致。单集群支持的数据总线服务器总数随集群规模扩展而增加,支持100节点以上的集群规模。数据从发布到订阅时延在1秒以内。

数据库直连

TDH支持使用DBlink方式进行实时连接将关系型数据库中的数据抽取到离线数据库,同时支持过滤条件下推,在关系型数据库上进行过滤以后再进行抽取,加速抽取和计算的效率。对于原来存储在关系型数据库中的维度表/码表,可以使用dblink的方式进行实时连接计算)。Stargate支持dblink的功能,可以在计算时将关系型数据库中的数据抽取到大数据平台上进行计算,同时支持过滤条件下推,可以在关系型数据库上进行过滤以后再进行抽取,加速抽取和计算的效率。MongoDB的数据可以通过MongoDB适配器采集到大数据平台的HDFS上,然后再进行计算。

数据存储层建设

平台提供海量数据的统一存储管理,提供统一的计算引擎和各种数据存储引擎的连接能力,通过统一的计算引擎对接多种不同数据存储引擎进行计算。统一数据存储管理支持多种分布式存储系统/引擎,包括分布式文件系统、基于内存或固态硬盘的分布式列式存储、分布式搜索引擎、分布式NoSQL数据库。

结构化数据存储

结构化数据典型应用场景主要分为:统计分析、检索查询与实时处理。

非结构化数据存储

非结构数据如档案系统、ECM和互联网中的图片、视频、大文件在过往的系统中,往往是存放在FTP服务器上。这样的架构存在两方面的缺点,其一是FTP服务器的带宽会对于非结构化数据的高并发读写造成瓶颈。其二是我们利用了FTP的存储资源,然而没有利用其计算的资源,造成了服务器资源的浪费。在大数据平台上,可以将非结构化数据存储于HDFS或是Hyperbase上,既利用了服务器节点的存储资源又可以利用其计算资源。

数据交换层建设

与大数据平台对接的系统很多,这些系统数据库结构各异。因此,数据交换方面考虑各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。

平台同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。

数据管理层建设

数据分区是为了访问数据时,速度更快的存储策略,针对不同的场景进行数据分区分布;

资源管理层建设

资源管理层是大数据基础平台的通用资源管理系统,为上层应用提供统一的资源管理和调度,从而大幅提升集群资源利用率,实现资源统一管理和共享。

大数据计算平台

数据计算层建设

计算层技术含量最高,最为活跃,发展也最为迅速。计算层主要实现各类数据的加工、处理和计算,为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低,主要依赖于该层组件的发展。

本建设方案满足甲方对于数据计算层建设的基本要求:

利用了MapReduce、Spark 、MPP 、Zookeeper、Yarn、HBase、Mahout 等开源组件和技术;实现了实现各类数据的加工、处理和计算,为上层应用提供良好和充分的数据支持;并且提供了更高效的列式数据库Hyperbase、跨内存/闪存/磁盘等介质的分布式混合列式存储Holodesk、一体化的机器学习平台Discover和拖拽式图形界面工具Midas。可以给甲方后续建设提供更丰富、更多样性的选择。

分布式数据仓库

大数据开发平台

大数据平台可视化工具

数据库管理工具

标准SQL开发工具Waterdrop是为开发人员和数据库管理人员提供的数据库管理工具,它可以进行跨平台管理,可作为大数据计算服务客户端,除了大数据计算服务外还支持兼容其余多种数据库。Waterdrop提供一个类似Eclipse的环境,用户可以通过Waterdrop连接Inceptor并在之上做数据库建模,支持 Oracle,MYSQL 建模设计;支持基于Hadoop(Hive、HBase 等)的分布式存储系统的数据建模。该产品主要包括四个功能模块:

  • 对数据的操作是使用数据库时频繁发生的行为,为了提升对用户的友好性,Waterdrop提供了许多数据管理接口,以方便用户对数据进行查看和编辑。

数据ETL工具

星环大数据平台提供数据ETL工具,能够将数据从关系型数据库准实时同步到大数据平台,同时支持多种格式的文件数据,以及去重、聚合、关联等丰富的数据转换操作。支持与Oracle等关系型数据库的实时同步,可实现基于InfoSphere CDC (DataMirror)、ORACLE GOLDEN GATE、Dell SharePlex、DSG RealSync等产生的数据库变更记录提供分钟级准实时数据接入。

元数据管理工具

元数据管理工具

星环大数据平提供Transwarp Governor来进行元数据管理,能够查看数据之间的血缘关系和进行依赖分析。Governor能够管理数据的位置、结构、操作以及数据的血缘和影响。Governor提供了统一化和图形化的元数据管理接口,具有追踪血缘关系和影响分析的能力,能够确保数据质量,此外Governor还能追踪操作历史,从而提高生产力和降低管理协作成本。

工作流设计工具

星环发布了工作流调度平台Transwarp Workflow。Workflow是一种用于实现工作流调度DAG设计与管理的图形化工具,它支持Shell、SQL、JDBC、HTTP等任务类型,以及自定义Java任务。同开源Hadoop Oozie相比,Workflow在工作流调度方面的功能更强大,操作更方便,可用性更高。OLAP建模工具

Transwarp Rubik是一款用于设计OLAP Cube的可视化建模工具。

  • 设计维度

首先选择参与维度设计的数据表;选择维度的模型类型,有星型模型和雪花模型两种选项;级别设置,设置从属于它的属性;维度设计,选择从属于它的级别。

  • 设计数据立方体(Cube)

新建数据立方体项目;然后选择关联的事实表,并选择度量字段;最后用拖拽的方式选择被关联的维度表,设置维度和事实表之间的连接关系。

  • 物化Cube

对所设计的Cube进行实例化。在设置实例化的过程中,我们可以选择对哪个度量执行哪种聚合运算,以及实例化时对哪些层次进行聚合;Rubik支持选择存储物化Cube的数据库以及存储方式;最后还可以选择实例化频率(只进行一次,还是每天|周|月一次)。

  • Cube的生命周期管理

从开始设计Cube,中间实例化,到最终销毁,全程提供管理服务和功能支持。

  • 任务监控

监控实例化任务的运行状态。

  • 团队合作

用户可以通过Rubik的仪表盘了解Cube的整体情况和统计信息,利用消息通知功能共享Cube的最新操作动态。

Rubik实现的是Cube的设计以及管理提供了强大的功能支持,真正业务中实现语句优化,还需要配合MBO使用。MBO是一种优化手段,可以根据对已有的物化Cube实例和物化视图进行判断,选择合适预计算结果,直接用于当前业务或者语句的执行。

数据挖掘分析工具

TDH提供了深度学习与交互式探索平台Sophon,它是除了Discover之外的另一个机器学习产品。Sophon包含一个交互式的开发IDE——Midas。

Midas是一种拖拽式图形界面工具,使用Midas可以很快且很简单地创建被称为流程的分析工作流来挖掘数据,只需通过将数据连接到用户构建模型的算子上,实现分析和预测功能。用户可以根据所获得的预测结果提高洞察力,实施对应活动。

用户画像分析是星环大数据挖掘平台推出的系列标准案例之一。用户画像的核心工作是,利用用户的相关数据,以及人为规定的高度精炼的标签规则,为用户打标签。完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。用户画像可以看作企业应用大数据的根基,能够更加直观的帮助企业了解用户,挖掘更多机会。一个完整的用户画像涉及很多内容,比如:自然属性(姓名,年龄,证件,联系方式等)、家庭属性(婚姻,孩子,父母等)、地理属性(居住地,工作区域,生活半径,出差情况,旅游情况,出行方式等)、行为属性(交易,投资,偏好等)、等级属性(客户价值,客户等级,客户忠诚度等)。

  1. 常用算法支持

Transwarp Discover是针对海量数据平台提供的分布式机器学习引擎,主要由Spark内存计算框架、R语言以及MapReduce机器学习框架构成。

支持R统计引擎,最新版本的TDH除了支持通过R访问HDFS或者Hbase中的数据外,还支持访问存储在Hive分布式内存中的数据。Discover同时内置了常用机器学习算法的并行化实现,可以与R语言中的数千个算法混合使用。支持R命令行以及图形化的R Studio执行R语言程序来访问TDH中的数据,从而使得TDH成为在大数据的数据挖掘和可视化应用领域的利器。TDH包含了经过高度优化的专有图算法,可高速分析关联关系网络等图数据。此外,TDH还集成了机器学习算法库Mahout,包含了聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。

定制模型构建能力支持

Sophon是一种拖拽式图形界面工具,界面如下图所示。使用Sophon可以很快且很简单地创建被称为流程的分析工作流来挖掘数据,只需通过将数据连接到用户构建模型的算子上,实现分析和预测功能。用户可以根据所获得的预测结果提高洞察力,实施对应活动。Sophon界面如下图所示:

自助式分析BI工具

Transwarp Pilot是轻量的自助式分析BI工具,它克服了传统BI工具的多方面缺陷,功能全面,体验智能,不论是对于可视化报表展现的丰富度,还是对于处理性能,都有极致的表现。

Pilot通过以下主要模块覆盖了用户对于报表工具的关键需求:

  • 快速构建可视化图表:内置数十种图表样式,满足用户多种分析需求,使得商业智能的实现以更加丰富的表现形式展现。

  • SQL Lab:Pilot内置SQL IDE,使SQL语句的调试执行与结果集的图表生成一气呵成。

  • HDFS浏览器:提供Web界面直观操作HDFS文件系统。

  • 团队协同:服务于多租户场景,实现报表的共享与隔离,同时保障信息安全。

大数据运维平台

大数据平台运维

集群管理

大数据平台提供易用的可视化管理运维工具,降低数据平台运维成本,包括集群一键式的安装,参数的配置,节点的增删,服务的监控,资源指标的监控以及异常的记录与告警。

图形化集群服务监控

在集群监控页面,可以查看所有服务的运行情况,包括了Zookeeper、HDFS、YARN、Hyperbase、InceptorSQL(SQL统计分析集群)、InceptorDM(数据挖掘集群)、Stream以及Kafka等。

图2-2-2 集群监控页面

集群组件监控页面,可以查看所有服务的运行情况。可以查看的服务与其多种性能参数,如:

  • Zookeeper:最大延时

  • HDFS:实时读吞吐量

  • YARN:实时运行的应用个数

  • Hyperbase:实时读请求

  • Inceptor:实时运行的任务数

  • Stream:实时运行的任务数

  • Kafka:实时发送吞吐量

  • InceptorML:实时运行的任务数

HDFS的监控界面,概要部分缺省展示了实时的HDFS运行情况和空间利用率。其中,运行情况与负载由读写吞吐量来反映。读写吞吐量很高则表示此时HDFS的负载很高。

图 HDFS监控界面

Yarn的监控页面,概要部分缺省展示实时的资源占用率。

图 Yarn监控页面

Inceptor的监控界面,概要部分缺省展示了实时Inceptor Server的负载情况。监控页面主要展示的参数为当前活跃的任务数,这个数值非常直观地反映了集群实时的负载情况。

图 Inceptor监控界面

Hyperbase的监控界面,概要部分缺省展示了实时的Hyperbase的负载和运行情况。这个页面主要反映的性能参数是Hyperbase集群实时的请求处理性能,从这个参数中星环科技可以判断整个Hyperbase的负载情况。

图 Hyperbase监控界面

Stream的监控界面,可以查看实时的数据流量等信息。

图 Stream监控界面

图形化集群性能监控

平台通过专门的监控服务对集群的状态进行监控,包括服务器CPU、内存、网络和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标超过预设阀值时时提供告警功能。管理员可通过浏览器访问集群的监控和管理界面进行日常的监控和维护,系统提供图标信息展示。管理员可以便捷地了解到集群的计算资源是否处于空闲状态、哪些服务器的负载过高,甚至判断集群的组网及机架安排是否合理等。管理员也可通过对各个节点的各个角色的日志信息进行检索,获得更加精确的信息。

图形化集群资源管理

  1. 计算任务管理和作业管理

计算任务管理和作业管理,包括作业的上传、配置、启动、停止、删除和状态查看功能。

平台可靠性

TDH的计算引擎Inceptor采用Spark架构,其对Spark进行了大量的改进,极大提高了Spark功能和性能的稳定性。Spark借助于新的计算容错思想,通过定义弹性数据集(Resilient Distributed Dataset,简称RDD)来实现容错。RDD是一种数据结构的抽象,它封装了计算和数据依赖,数据可以依赖于外部数据或者其他RDD, RDD本身不拥有数据集,它只记录数据衍变关系的谱系,通过这种谱系实现数据的复杂计算变换,在发生错误后通过追溯谱系重新计算完成容错,如果计算的衍变谱系比较复杂,系统支持checkpoint来避免高代价的重计算发生。下图为RDD的lineage关系图,每个椭圆表示一个RDD,椭圆内的每个圆性表示该RDD的一个Partition。

平台故障处理

大数据集群能提供高可靠与高可用性保证,在集群中任意节点宕机的情况下,集群能稳定运行。分布式存储Transwarp HDFS通过高可靠的Namenode HA方案,保证HDFS的高可靠性,始终有一个Namenode做热备,防止单点故障问题。采用QJM的方式实现HA,文件系统元数据存储在高可靠的由JournalNode组成的集群上。通过HDFS的3副本机制,保证单个DataNode的宕机不会对整体分布式存储造成影响,HDFS在节点宕机导致副本丢失的情况下,会自动将副本重新恢复为3,并对上层应用透明。

分布式存储Transwarp HDFS通过高可靠的Namenode HA方案,active namenode和standby namenode同时运行,active namenode发生故障时,standby namenode能迅速自动切换为active,保证HDFS的高可靠性,始终有一个Namenode做热备,防止单点故障问题。

经过测试验证,在分布式存储角色NameNode宕机的情况下,热备Standby NameNode在1s内完成切换,并对正在运行的作业的正确性没有造成任何影响。在计算存储节点宕机的情况下,正在运行的作业将该宕机节点上的计算子任务进行了重算,最终返回正确结果。

大数据平台开放性

平台开放性

星环大数据平台与开源社区保持密切的关系和技术互动。星环的Spark版本(Transwarp distribution on Apache Spark)是经过Spark原厂Databricks官方认证的发行版本。

平台总体技术架构符合以Hadoop/Spark为代表的主流技术发展趋势要求,在软件外观(包括工具命令调用格式、API设计与类包命名)保持和开源社区一致,并能与开源社区的合理技术演进保持同步,提供自动化版本迁移或源代码版本兼容性检测工具。

;