Bootstrap

项目流程

项目流程:

技术选型:

采集数据:Flume      存储平台:HDFS          基础设施:HIVE          运算引擎:SPARK SQL  

资源调度:YARN      任务调度:AZKABAN   元数据管理:ATLAS

分层设计:

ODS层:对应着外部数据源ETL到数仓体系之后的表!

DWD层:数仓明细层;一般是对ODS层的表按主题进行加工和划分;本层中记录的还是明细数据;

DWS层:数仓汇总层;

ADS层:应用层,主要是一些结果报表!

分层的意义:

数据管理更清晰!运算复用度更高!需求开发更快捷!便于解耦底层业务(数据)变化!

分层详解:

ODS层

数据内容:存放flume采集过来的原始日志

存储格式:以json格式文本文件存储

存储周期:3个月

DWD层

数据内容:对ODS层数据做ETL处理后的扁平化明细数据

存储格式:以orc/parquet文件格式存储

存储周期:6个月

DWS层

数据内容:根据主题分析需求,从DWD中轻度聚合后的数据

存储格式:以ORC/PARQUET文件格式存储

存储周期:1年

ADS层

数据内容:根据业务人员需求,从DWS计算出来的报表

存储格式:以ORC/PARQUET文件格式存储

存储周期:3年

DIM层

存储各种维表

;