1 语数精选简介
语数精选来源于语数社区星球球友提问,主要沉淀一些大家工作和学习过程中存在的一些共性问题,希望能够更好的帮助到球友和粉丝。
欢迎关注公众号:语数
2 本期精选问题
- 如何校验开发好的数仓指标?
- 如果你是公司的分析师,应该如何分析数据?
- 0基础如何体系化学习数仓?
3 数仓指标如何校验
3.1 提问
语兴大佬,咨询个问题哈,你们组一般开发完数仓指标后 ,大致怎么个校验流程呢,我这边一般是先自己拿着计算好的指标和ods或者dwd对一下,相关的指标量。 如果没啥问题的话 ,别的同事不忙 会找他们来帮测一下
语兴回答
- 首先通过自测方式把数据跑到线下环境数据表中。
- 然后做数据探查(看数据表空值占比、最大、最小值、主键是否重复等)。
- 如果是要加字段还需要用线下和线上去做数据比对,比对添加字段后是否影响到之前字段了。
- 其次select 一遍看整体指标分布情况有没有不太合理的。
- 最后抽取一部分数据(比如100条)写明细数据计算sql跟你线上去比较,如果一致则没问题,但是在这里你并不能保证你计算的完全正确,但已经能保障到80%。
- 后续让bi搭看板时候去核对检查,看看有没有问题。
4 作为分析师如何分析数据
4.1 提问
兴哥,我现在思路有点闭环了,想问您个问题,您公司的分析师,是如何分析数据的
- 他们只能使用数仓提供的建模后表吗?
- 如果他们只能使用数仓建模后的表,而数仓的建模表又是根据分析师提的需求建模的,她们怎么知道系统有哪些数据呢?
语兴回答
- 首先数分需要对当前业务流程、或者是某个专题内容拆解,拆解成各种率各种率下会有分子与分母,分子分母都是派生指标,但这里的派生指标需要和业务方去过内容(存在自己想的指标别人不认,例如你指标背景是什么、指标标准是什么等挑战)。
- 所以数分大多数都是侦查作用看基本盘,等需求成熟后方可与数仓交流去开发具体指标(这里需要沟通已有的数据、未接入的数据,并按照优先级进行排期,例如看板v1.0),数仓交付分子分母后完成组合构建看板专题分析报告等交付物。
5 零基础数仓学习
5.1 提问
0基础如何体系化学习数据仓库?
语兴回答
我从几个层面说下
- 语言层面:需要选择一门编程语言(包括java python scala,这里建议选择java,课程可在b站随意搜,建议学韩顺平的 )及hive sql(hive 学习可跟着踏踏实实练sql 去学)。
- 数据源层面:关系型数据库(这里建议MySQL),中间件(这里建议kafka ),会用即可,不需要精通到源码。
- 计算引擎层面:需要学习离线引擎mapreduce spark 等,实时计算引擎flink ,作为数据仓库同学这里不建议学到源码级别,只需要会用,明白组件特性,清楚运行流程即可。
- 开源组件层面:会用抽取工具完成日常数据同步(这里离线建议学sea tunnel或datax ,实时建议学flink cdc),调度工具(这里建议学dolphin scheduler或Azkaban),明白hdfs 概念及原理,了解olap其中一种即可(这里查询olap建议学impala olap库建议学Doris)
- 云端数据平台:有条件的同学可以自己购买,当然语兴也会为星球同学准备数据平台账号使用,帮助大家了解数据平台,知道数据平台里面内容,从而可以应对未来使用数据平台的公司,语兴同时在b站也为大家准备了数据平台使用课程。
- 数仓建设思想:跟着我b站课程-数仓建设学习路线,了解数仓日常都在做什么,数仓版图有哪些内容,如何去做。
关于语数
欢迎加入语数知识星球社区! 社区致力于推动数据技术的发展,为初学者和专业人士提供一个共享知识、经验和资源的社区平台,最重要一点,语数星球尊重原创,打造数据相关原创星球内容,跟随我们,脚踏实地一点一滴成长。
圣诞特惠福利
语数知识星球50元星球优惠券,本年度最后一次优惠,仅10张,数量有限请联系管理员
语数社区球友专属专栏
欢迎加入语数,语数目前沉淀专栏(往期直播如下)
- 语兴原创简历项目(目前已更新11个简历,可直接套用)
- 语兴的求职之路(手把手从简历->面试->入职后)
- 左美美:实时技术基础与源码剖析(flink专项作业)
- 左美美:Flink实时风控项目(flink体系课+作业)
- 超哥:平台研发技术(玩转平台开发)
- 汪哥:生产真实场景专项课程(生产真实场景剖析)
- 孟哥:数仓项目与面试(从面试官角度带你看项目)
语数每周都会安排直播内容,欢迎加入学习
免费体系课
往期B站体系课如下,欢迎学习