郭炜
本文由白鲸开源CEO郭炜投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级先锋人物》榜单/奖项评选。
大数据产业创新服务媒体
——聚焦数据 · 改变商业
随着大数据、人工智能技术的飞速发展,我们已迈入了一个全新的时代——大模型时代。在这个时代背景下,企业提高自身的及时处理数据能力、敏捷开发能力以及相应的数据治理能力以应对新环境的挑战成为新的热点。
在海外,Salesforce 以110亿美金鲸吞传统DataOps领域厂商Informatica,IBM 23亿欧元收购StreamSets的母公司以重新打造新一代的DataOps体系,从中我们就可以感受到数智化升级的潮流。本文将从DataOps的核心能力、DataOps在大模型时代的价值,以及大模型时代下DataOps的挑战与机遇三个方面进行阐述。
DataOps的核心能力
DataOps作为一套融合了数据管理、数据开发和运维的实践和工具,其核心能力在于能够高效地集成、处理和分析企业内部各种复杂场景的数据,并提供敏捷的开发功能能力,以支持企业的数据分析和决策制定。在大模型时代,已经出现的新突破和能力要求:
●大模型的Transformer vs 大数据 Transform
在DataOps领域里,曾经流行的ETL(提取、转换、加载)架构是很常见的数据处理架构,但是大模型出现后,复杂的数据处理已经不是结构化数据了,往往是更复杂的自然语言理解。所以,DataOps的架构也从ETL“蜕变成”EtLT架构,复杂的数据处理交给大模型,而简单的数据映射和处理由DataOps来进行处理,结合起来比较典型的就是《企业大模型如何成为自己数据的“百科全书”》里面提到的例子:使用新一代的DataOps工具白鲸开源的WhaleTunnel,把数据库当中的数据做轻量级的转化(小t),放到数据库当中,然后使用大模型的API做复杂的转化(大T)的向量数据库当中,然后用户就可以直接使用自然语言来查询过去图书当中提到的内容或者中心思想。
在这个时代,DataOps的趋势是把重的转化留给了更专业的数据仓库、数据湖或者大模型,自己只保留比较轻量级转化的部分,大模型的Transformer一定是比大数据的Transform针对复杂的场景更专业的,未来DataOps要做的就是做好自己数据获取和复杂数据源支持等这些事情。
●实时数据获取与反馈
大模型对数据的实时性要求极高,DataOps通过自动化的数据集成和处理流程,能够快速响应数据变化,为大模型提供即时的数据支持,从而实现实时分析和决策。在这个场景下,EtLT数据处理架构逐步替代ETL和ELT架构成为主流。
在数据仓库时代,ETL(提取、转换、加载)架构是数据处理的主流模式。然而,随着大数据的兴起,ELT(提取、加载、转换)架构开始受到重视,它允许数据首先被加载到数据仓库中,然后再进行转换,这在处理大数据量时更为高效。
但随着数据湖和实时数据仓库的流行,ELT架构的局限性开始显现。为了解决这些问题,EtLT(提取、轻量转换、加载、转换)架构应运而生。EtLT架构在提取阶段增加了实时数据获取和非结构化数据的能力,在转换阶段增加了轻量级的数据清洗和转换,以适应实时数据处理的需求,同时目标端的加载也增加了对于大模型、数据湖和实时数据仓库等新一代数据环境的支持。
总之,EtLT架构,能够支持复杂结构化(数据库,日志,文件)和非结构化(视频、二进制文本、语音)实时数据抽取和转换,快速响应市场变化,为企业提供即时的业务洞察。
●复杂数据源的支持
随着大模型和实时大数据的普及,现代企业的数据源日益多样化,从大模型、云服务、SaaS应用、本地数据库Binlog到传统SAP、CRM系统实时API等等。这就要求DataOps在新时代需要具备强大的数据源兼容性,以实现数据的无缝集成,目前在全球范围里,美国的Fivetran和Airbyte、源自中国开源的Apache SeaTunnel以及其白鲸开源的商业版WhaleTunnel,都是支持100-200种以上数据源的实时获取和批量获取。而且,支持获取非结构数据,例如图片、语音对话,或者是数据库的Binlog,而数据集成的目标,也不是过去的数据库,而是复杂的混合云(阿里、华为、本地K8s、AWS),加上大模型API,向量数据库等新时代软件产品。因此,要支持好这些数据源,一定也是新一代DataOps产品的基本要求。
DataOps的价值
在大模型时代,DataOps的价值越来越凸显,无论是在技术架构上,还是在成本和灵活性上,都会帮助企业快速实现新一代的逻辑数据湖或者大模型数据准备工作。
●成本效益与灵活性
在上述架构当中,DataOps通过减少数据的重复存储和不必要的转换,降低了存储和计算成本。同时,它允许数据在加载后进行二次转换,提供了更高的灵活性和可扩展性。
DataOps通过减少数据的重复存储和不必要的数据转换,降低存储和计算成本。同时,类似像白鲸开源的WhaleTunnel这样的工具,可以利用SQL-Like的脚本和可视化工具进行数据转换,降低了人员上手难度和人员成本。
同时,DataOps支持数据在加载到数据湖或数据仓库之前进行初步转换,然后在需要时进行更深入的分析和二次转换,提供了更高的灵活性和可扩展性。
●数据质量和治理
大模型时代的DataOps更加注重数据的质量和治理,通过在数据集成过程中进行初步清洗和转换,提高数据质量,并在数据存储后进行进一步的数据治理,确保大模型训练和推理的数据准确性和可靠性。
类似像开源免费的Apache DolphinScheduler在大数据调度和大模型训练过程中就可以统计相关数据质量,并可以快速控制下一步的相关工作,避免浪费大模型算力和生成错误的大模型。
●DataOps的自动化与智能化
自动化是DataOps的另一大特点。通过自动化的数据集成流程,企业可以减少人工干预,降低错误率,提高数据处理的效率。
同时,智能化的工具和平台,如机器学习和人工智能算法,可以进一步优化DataOps流程,实现更高级的数据管理和分析。
●多云与跨平台集成
在多云和混合云环境日益普及的今天,DataOps需要支持跨云平台的数据集成。这不仅要求DataOps工具具备高度的灵活性和可扩展性,还要求它们能够适应不同云平台的特性和接口。
多云和混合云是未来企业使用的趋势,固定业务使用IDC机房降低成本,快速增长业务使用云来进行弹性支撑,加上大模型的云上API或者私有API的支持,DataOPs必须既支持云还支持私有化,这点在开源免费的Apache SeaTunnel支持的120种数据接口中就可以看到,1/4的接口是云接口,1/5接口是大模型和SaaS接口,其它的是大数据和非结构化接口。
当然在中国跨平台还有一个特殊性,那就是信创环境的支持,这点上白鲸开源的WhaleTunnel支持得更好一些。
DataOps的挑战与机遇
挑战
1. 技术复杂性
EtLT架构的实施需要更多的技术知识和专业技能。企业需要投入相应的资源进行技术团队的培训和建设,以应对技术复杂性的挑战。
2. 依赖目标系统的处理能力
EtLT架构依赖于目标系统的处理能力,对性能和稳定性有较高要求。企业需要选择合适的数据平台和工具,确保系统的高性能和稳定性。
3. 管理和监控挑战
DataOps的多阶段处理需要更复杂的管理和监控工具。企业应采用先进的监控和报警系统,确保数据流程的稳定性和可靠性。
4. 数据变更管理复杂性提高
EtLT架构中数据转换的分离增加了数据变更管理的复杂性。企业需要建立有效的数据变更管理机制,以应对源系统变化带来的挑战。
5. 对工具和平台的依赖
EtLT架构的实施通常依赖于先进的数据处理工具和平台,如Apache SeaTunnel、Apache Spark、Apache Flink等。企业需要进行额外的投资和集成工作,以实现DataOps的自动化和智能化。
机遇
1. 数据处理能力的增强
大模型的引入,要求DataOps能够处理更大规模、更复杂的数据集,以支持模型的训练和推理。
2. 自动化治理的兴起
随着数据源和实时数据的增加,传统的数据治理流程已经无法满足需求,自动化治理成为必然趋势。
3. 多云集成与ETL一体化
多云集成能力和ETL一体化设计,是适应大模型时代下数据集成需求的关键。
4. DataFabric与数据虚拟化
DataFabric和数据虚拟化技术,为DataOps提供了新的解决方案,尽管目前仍处于发展阶段,但未来潜力巨大。
未来大模型与DataOps的结合
1. 数据集成与大模型的对接
选择支持EtLT架构的数据集成工具,确保能够处理实时数据和复杂数据源,直接为大模型提供所需数据。工具应具备良好的扩展性和灵活性,以适应大模型不断变化的数据处理需求。
2. 数据治理与大模型的协同
建立严格的数据治理框架,确保数据的质量和一致性,为大模型提供准确可靠的数据输入。通过自动化的数据质量检查和反馈机制,及时发现并纠正数据问题,优化大模型的输出结果。
3. 构建以大模型为核心的协作机制
打破部门壁垒,建立以大模型为核心的数据共享和协作的文化。通过DataOps平台,实现数据科学家、工程师和业务分析师之间的无缝协作,共同推动大模型的创新和应用。
4. 大模型的持续集成和持续部署(CI/CD)
将数据集成流程纳入CI/CD管道,实现数据流程的快速迭代和部署。这有助于快速响应业务需求变化,加速大模型的创新和应用。
5. 大模型性能优化和成本控制
通过性能优化,确保数据处理的速度和效率,满足大模型对数据实时性的需求。同时,通过合理的资源分配和成本控制,实现经济效益的最大化,支持大模型的可持续发展。
结语
随着技术的不断进步,DataOps将继续演化,以适应新的数据处理挑战。多云集成、自动化治理、大模型支持等新兴趋势,将进一步推动DataOps的发展。同时,新技术如ZeroETL、DataFabric、数据虚拟化等,虽然在某些方面提供了替代方案,但在可预见的未来,DataOps仍将是企业数智化升级的核心驱动力,特别是在大模型的助力下,DataOps将更加智能化、自动化,成为企业数字化转型的重要支撑。
在大模型时代,DataOps不仅是企业数智化升级的重要驱动力,也是企业保持竞争力的关键。企业需要不断优化和升级DataOps实践,以适应不断变化的技术环境和业务需求。通过DataOps,企业可以更高效地处理和分析数据,从而实现数据驱动的决策制定,推动企业的持续创新和发展。随着技术的不断进步,DataOps也将继续演化,以满足企业在大模型时代下的数智化需求。
·申报人“郭炜”简介:
郭炜,人称“郭大侠”,白鲸开源CEO,Apache 基金会成员, Apache DolphinScheduler PMC Member, Apache SeaTunnel Mentor,ClickHouse 中国开源社区发起人和首席布道师。
郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,ApacheCon Asia DataOps论坛主席,全球中小企业创业联合会副会长,人民大学大数据商业分析研究中心客座研究员。
郭炜曾作为演讲嘉宾出席波兰DataOps峰会、北美Big Data Day,并被评为虎啸十年 杰出数字技术人物,中国开源社区最佳33人,中国2021年开源杰出人物。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。
点击文末左下角“阅读原文”链接还可查看白鲸开源官网
★以上由郭炜投递申报的观点性文章,最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级先锋人物》榜单/奖项。
该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场: