Bootstrap

网易数据治理工具产品实践

作者介绍

@云娜

某大厂数据开发平台的产品;

专注数据治理和数据平台的相关内容;

“数据人创作者联盟”成员。

全文一共2800字+,阅读需要10分钟

今天分享的主题是网易数据治理工具产品实践,主要分 4 部分:

第一部分是网易内部一些业务线过往数据治理专项活动的回顾;

第二部分是当前数据治理面临的痛点;

第三部分是针对当前的治理痛点进行产品整体策略的分享;

第四部分是数据治理工具未来的规划。

过往数据治理回顾

首先分享的是网易内部,例如严选、传媒、音乐等在数据治理方面面临的一些问题,然后是针对这些问题做出的产品策略以及初步取得的成效。对于业务线专项治理背景,都比较相似,一方面是随着业务的发展,严选、传媒和音乐的计算、存储达到瓶颈,但是对于业务方而言很难判断难以判断目前需要继续扩容增加资源,还是对劣质数据进行治理以降低资源危机,但是在这个过程中会面临如何定义劣质资源,怎么处理劣质资源,然后解决危机,因此进行治理成为亟待解决的问题。另一方面而言,数据的生产链路较长,缺乏数据加工的统一标准,整个团队内有哪些数据,这些数据应该由谁负责,团队内有哪些数据,这些数据通过哪些任务产出,数据是否被业务系统和下游系统有效使用,数据的存在是否有意义,这些问题数据团队都难以准确回答。

针对数据治理方面面临的一些问题,我们制定了以下策略:第一是具体化到治理责任人,包括表和任务具体到责任人,责任人资产梳理,指定专项治理负责人,对无认领资产下线;第二是优化存储资源,涉及到无用数据下线,首先要对无用数据规则进行定义,然后基于无用数据进行扫描诊断,然后业务方对无用数据进行确认,最后操作下线,形成闭环分析;第三是优化计算资源,对每次执行任务消耗的成本进行分析,整理出相关数据之后,业务方会根据数据来优化任务,对无用任务进行下线治理,针对某些只优化了某几个节点的任务形成前后对比分析,来了解优化是否有效,产生价值,最后是治理效果量化可评估,在存储资源治理时知道下线了多少物理存储,在设置对表生命周期管理时,因为到期进行下线处理后节省了多少存储资源,将治理成效形成可量化的指标。 

接下来是成本度量体系,在业务内部会有账单体系,在体系中明确定义了计算定价和存储定价,面临的问题是如何将计算和存储折算成费用。从计算、存储的元数据仓库中对表和任务进行清洗和计算,然后将这些任务执行过程中消耗的资源结合账单体系折算成费用,会较清晰的知道调度任务、Query查询消耗的计算成本,数据表存储成本+产出表的计算任务分摊的成本。

针对于以上策略,已经有一些功能落地。首先是任务和表具体化到责任人,这个责任人可以在列表中筛选自己的任务,如果这个任务没有责任人或者责任人离职,这个任务会转接到业务专项治理责任人,然后是无用数据下线功能,会给对应人员提供入口,让他对无用数据或表确认下线,确认下线后,平台会把下线内容暂存在回收站,到达一定时期后会进行彻底的删除;接下来是表生命周期,支持对内部表和外部表的生命周期设置,防止某些表应该在一定的时间被删除,但由于没有设置生命周期,而产生冗余的存储。接下来是对离线开发和Query查询消耗的任务成本进行分析,例如任务耗时多久,每次运行产生的预估费用是多少。

然后是针对治理效果的抓手,制定负责人红黑榜,可以知道某项任务下不同人做的好坏程度,然后是对费用和下线情况的指标量化,例如下线了多少任务,节省了多少存储,预估节省了多少费用,在整体上形成清晰的认知。最后是邮件和内部工具的通知,形成催促的作用,收到通知的人包括项目管理人,他可以知道当前项目下有哪些人还没有完成相关事宜,另一类人是表和任务的真正负责人,他需要知道自己还有哪些任务需要优化,完成治理后可以为项目 节省多少费用。

2 当前治理痛点

当前治理痛点包括:(1)数据不规范,存在误删风险,表目录定义不规范,对外表生命周期管理,若未校验核对,选择删除目录文件会存在数据丢失的风险;(2)不被重视,治理动力不足,疲态应对业务需求,只开发不治理,动力不足,人员更替频繁,遗留大量历史数据;(3)治理非闭环,周期性催促治理周期性被领导催着治理,阶段性治理和资源告急循环往复,缺乏长效治理机制;(4)治理效果量化指标粗糙,各个负责人下线了哪些数据,节约了多少存储,省了多少费用,无从得知,更加衍生治理的消极心态。

在数据治理方面依然有很多填不完的坑,例如(1)存储成本,数据量持续增加,源源不断的带来存储成本;(2) 计算成本,队列资源持续紧张,任务优化迫在眉睫;(3)数据质量,加工链路长,任何一个环节都可能带来质量问题;(4)模型规范,基于ODS、DWD层生成的报表数量居高不下,模型复用率低;(4)数据安全,管理员成员繁杂,权限太大如何控制,闲置的权限如何回收;(5)数据价值

数据服务API、BI报表等下游应用系统,引用表的存储和计算成本如何估量,如何通过下游应用量化数据价值。

3 产品整体策略

接下来分享的是基于上面提到的痛点,分享产品的整体策略。在数据治理时采用的整体策略是阶梯化的治理方案,第一明确治理的范围,系统性梳理数据治理

范围,让决策者看见并关注,知道哪些数据应该进行治理;第二量化数据治理的价值,需要一套度量体系+抓手,让一线用户关注并看见问题,形成积极的治理新她爱;第三形成体系化治理,短期运营+长期机制建设,软硬策略兼施,保证落地结果并体系化工具化治理。

第一是明确治理范围,围绕数据的全生命周期展开,从数据生产到管理,包含:成本、标准、质量、安全、价值;包括数据生产,数据消费,数据管理。

第二是量化数据治理价值,基于资产健康分维度,具体涵盖以下五个方面,建立公司/项目/个人视角的数据资产量化评估体系。针对不同的资产健康分采用不同的策略。

第三是体系化的数据治理,针对刚才提到的五个方面明确每个方面需要治理的点,采用相应的手段和优化工具。主要围绕发现问题,解决手段,持续运营持续沉淀三个方面展开。

4 未来规划

最后一部分是数据治理工具未来的规划,愿景是打造成一款全流程、自动化、可落地、高质量的大数据评估和优化工具,成为数据治理的利刃;使命是降本提效,省钱省力。


;