项目流程:
技术选型:
采集数据:Flume 存储平台:HDFS 基础设施:HIVE 运算引擎:SPARK SQL
资源调度:YARN 任务调度:AZKABAN 元数据管理:ATLAS
分层设计:
ODS层:对应着外部数据源ETL到数仓体系之后的表!
DWD层:数仓明细层;一般是对ODS层的表按主题进行加工和划分;本层中记录的还是明细数据;
DWS层:数仓汇总层;
ADS层:应用层,主要是一些结果报表!
分层的意义:
数据管理更清晰!运算复用度更高!需求开发更快捷!便于解耦底层业务(数据)变化!
分层详解:
ODS层
数据内容:存放flume采集过来的原始日志
存储格式:以json格式文本文件存储
存储周期:3个月
DWD层
数据内容:对ODS层数据做ETL处理后的扁平化明细数据
存储格式:以orc/parquet文件格式存储
存储周期:6个月
DWS层
数据内容:根据主题分析需求,从DWD中轻度聚合后的数据
存储格式:以ORC/PARQUET文件格式存储
存储周期:1年
ADS层
数据内容:根据业务人员需求,从DWS计算出来的报表
存储格式:以ORC/PARQUET文件格式存储
存储周期:3年
DIM层
存储各种维表