1、背景
数据开发、数据仓库工作和业务系统开发工作很大的一个不同是,业务系统功能开发一旦完成并通过测试,一般就可以比较稳定地长期运行,因为它的输入是相对稳定的。但是数据仓库开发加工的数据模型、数据指标和分析结论,却很难保持稳定。因为输入数据每天都在源源不断产生,很难保证数据没有大的波动,而输入的不稳定,就可能会引发数据问题。另外,由于指标数量众多,数据处理和加工分析的流程很长,中间环节出现纰漏也在所难免。当然,这里说的数据问题,不一定是真有问题,但是出现大的波动,也总要排查一轮心里才比较安心,才敢相信这是合理的波动。有时候数据出现问题并不一定真的存在问题,可能只是看起来有问题,实际上就是一种正常的模型抖动。数据问题排查到最后,一般有两种原因,一种是存在bug或者流程异常,导致数据结果不对,修复相应bug,恢复数据即可;还有一种是,业务出现了问题,通过数据表现了出来。
2、常见数据问题
数据缺失
即缺少某个应该存在的数据,有以下这些情况
1、每天都在统计的指标,突然某天没数据了。
案例:每日申请借款人数,突然有一天没数据了。对比发现同一个业务系统的抽的数据都为空值,在经过打印数据源那块日志,发现采集异常,抽不到数。最后经由前端同事协助排