Bootstrap

一文掌握0基础如何体系化学习数仓

1 语数精选简介

语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。
欢迎关注公众号:语数

语数

2 本期精选问题

  1. 如何校验开发好的数仓指标?
  2. 如果你是公司的分析师,应该如何分析数据?
  3. 0基础如何体系化学习数仓?

3 数仓指标如何校验

3.1 提问

语兴大佬,咨询个问题哈,你们组一般开发完数仓指标后 ,大致怎么个校验流程呢,我这边一般是先自己拿着计算好的指标和ods或者dwd对一下,相关的指标量。 如果没啥问题的话 ,别的同事不忙 会找他们来帮测一下

语兴回答

  • 首先通过自测方式把数据跑到线下环境数据表中。
  • 然后做数据探查(看数据表空值占比、最大、最小值、主键是否重复等)。
  • 如果是要加字段还需要用线下和线上去做数据比对,比对添加字段后是否影响到之前字段了。
  • 其次select 一遍看整体指标分布情况有没有不太合理的。
  • 最后抽取一部分数据(比如100条)写明细数据计算sql跟你线上去比较,如果一致则没问题,但是在这里你并不能保证你计算的完全正确,但已经能保障到80%。
  • 后续让bi搭看板时候去核对检查,看看有没有问题。

4 作为分析师如何分析数据

4.1 提问

兴哥,我现在思路有点闭环了,想问您个问题,您公司的分析师,是如何分析数据的

  1. 他们只能使用数仓提供的建模后表吗?
  2. 如果他们只能使用数仓建模后的表,而数仓的建模表又是根据分析师提的需求建模的,她们怎么知道系统有哪些数据呢?

语兴回答

  • 首先数分需要对当前业务流程、或者是某个专题内容拆解,拆解成各种率各种率下会有分子与分母,分子分母都是派生指标,但这里的派生指标需要和业务方去过内容(存在自己想的指标别人不认,例如你指标背景是什么、指标标准是什么等挑战)。
  • 所以数分大多数都是侦查作用看基本盘,等需求成熟后方可与数仓交流去开发具体指标(这里需要沟通已有的数据、未接入的数据,并按照优先级进行排期,例如看板v1.0),数仓交付分子分母后完成组合构建看板专题分析报告等交付物。

5 零基础数仓学习

5.1 提问

0基础如何体系化学习数据仓库?

语兴回答

我从几个层面说下

  1. 语言层面:需要选择一门编程语言(包括java python scala,这里建议选择java,课程可在b站随意搜,建议学韩顺平的 )及hive sql(hive 学习可跟着踏踏实实练sql 去学)。
  2. 数据源层面:关系型数据库(这里建议MySQL),中间件(这里建议kafka ),会用即可,不需要精通到源码。
  3. 计算引擎层面:需要学习离线引擎mapreduce spark 等,实时计算引擎flink ,作为数据仓库同学这里不建议学到源码级别,只需要会用,明白组件特性,清楚运行流程即可。
  4. 开源组件层面:会用抽取工具完成日常数据同步(这里离线建议学sea tunnel或datax ,实时建议学flink cdc),调度工具(这里建议学dolphin scheduler或Azkaban),明白hdfs 概念及原理,了解olap其中一种即可(这里查询olap建议学impala olap库建议学Doris)
  5. 云端数据平台:有条件的同学可以自己购买,当然语兴也会为星球同学准备数据平台账号使用,帮助大家了解数据平台,知道数据平台里面内容,从而可以应对未来使用数据平台的公司,语兴同时在b站也为大家准备了数据平台使用课程。
  6. 数仓建设思想:跟着我b站课程-数仓建设学习路线,了解数仓日常都在做什么,数仓版图有哪些内容,如何去做。

关于语数

欢迎加入语数知识星球社区! 社区致力于推动数据技术的发展,为初学者和专业人士提供一个共享知识、经验和资源的社区平台,最重要一点,语数星球尊重原创,打造数据相关原创星球内容,跟随我们,脚踏实地一点一滴成长。

圣诞特惠福利

语数知识星球50元星球优惠券,本年度最后一次优惠,仅10张,数量有限请联系管理员

语数社区球友专属专栏

欢迎加入语数,语数目前沉淀专栏(往期直播如下)

  1. 语兴原创简历项目(目前已更新11个简历,可直接套用)
  2. 语兴的求职之路(手把手从简历->面试->入职后)
  3. 左美美:实时技术基础与源码剖析(flink专项作业)
  4. 左美美:Flink实时风控项目(flink体系课+作业)
  5. 超哥:平台研发技术(玩转平台开发)
  6. 汪哥:生产真实场景专项课程(生产真实场景剖析)
  7. 孟哥:数仓项目与面试(从面试官角度带你看项目)

语数每周都会安排直播内容,欢迎加入学习

免费体系课

往期B站体系课如下,欢迎学习

数仓建设学习路线

数仓建设实践路线

语兴小灶

踏踏实实练SQL

语兴的问题解答

实时专项

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;