引入
实现数据价值的前提是构建高质量的数据体系,其中核心正是我们在数仓架构设计里面我们提到,从“采”,“建”,“管”,“用”四个模块去构建数仓,其对应的数仓分层如下:
- 采(贴源数据层)
- 建➕管(公共数仓层)
- 用(应用数据层)
要构建数据体系的前提,自然是有足够的可用数据,同时,通过上一篇的内容,我们知道构建企业级数据中台的核心痛点之一就是数据孤岛问题,而贴源数据层的核心功能,就是将各业务系统分散的数据采集、汇聚到一个统一的平台,也就是从物理上打破了数据孤岛。
下面我们就深入去看看它具体涉及哪些内容。
数据采集
随着传统互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始多元化,业务主体类型也越来越丰富。除了从业务库获取数据以外,还能通过埋点、爬虫、日志、填报的方式来收集各类数据。从空间维度来看,其主要可以分为线上和线下两类。采集这两类行为所产生的数据的方法是不一样的,而且方法也在随着技术的演进不断发展变化。
1.线上采集
线上的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H5、微信小程序、App、智能可穿戴设备、物联网传感设备等。
在技术上,数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块,通过模块提供的能力采集客户端的用户行为,并上传回行为采集服务端。
客户端埋点
常见的客户端埋点方式有3种:全埋点、可视化埋点和代码埋点。
- 全埋点:将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌SDK做一些初始配置就可以达到收集全部行为的目的。这也经常被称为无痕埋点、无埋点等。
全埋点适合于终端设计标准化且有统一系统接口的情形。它利用系统提供的事件捕获机制,在对象事件发生时调用埋点工具中的指定处理逻辑,对该事件相关的信息进行记录。这种方法的优点是不用频繁升级,在一次性验证并发布后,就可以获取终端的全量行为数据。当突然发现需要对某个对象进行分析时,可以直接从历史数据中找到所需的数据,而不需要再次进行数据收集。其缺点是数据存储、传输的成本较高,有些当