Bootstrap

标贝科技:垂直化是数据市场发展趋势,解决单点难题是核心竞争力

数据,作为一种革命性的生产资源,与算力、算法共同构成了人工智能产业的三大要素。

受益于人工智能的蓬勃发展,人类加速进入到由数据驱动的数字化时代。

这是充满想象力的一面。

然而另一面是,数据行业市场分散,数据安全与合规问题依然是悬在头上的“达摩克利斯之剑”

亿欧采访到标贝科技创始人兼CEO刘博,就数据服务与AI大模型等相关问题进行了相关对话。

大模型幕后“功臣”,数据服务迎来历史机遇

国家一直高度重视数据行业发展。

2022年12月,《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》出台,明确指出,“数据作为新型生产要素,是数字化、网络化、智能化的基础”,并系统性布局了数据基础制度体系的“四梁八柱”。

更早些时候,2019年中国正式提出要全面发展数字经济,随后又启动数字中国建设。自此以来,数据——便被视为极其重要的战略资源而备受关注。

作为驱动人工智能产业发展的三大要素之一,数据正迎来历史性发展机遇。

一方面,数字经济蓬勃发展,各产业对数据的需求日益增加。从本质上看,数字经济即全产业的智能化转型升级,要完成这一目标就绕不开人工智能技术,最终落脚点必然要依靠大规模的数据支撑。

另一方面,AI大模型竞赛如火如荼,作为提升大模型能力的重要“饲料”,训练数据的规模、多样性成为影响大模型竞争的关键因素。

在这种背景下,数据服务行业涌现出诸多新变化。在标贝科技创始人兼CEO刘博看来,主要体现在三个方面:

一是,数据安全要求越来越高。国家出台了《数据安全法》《个人信息保护法》《数据出境安全评估办法》《促进和规范数据跨境流动规定》等一系列法律法规,不断规范数据治理体系。未来客户将更加看重数据服务的安全与合规能力。

二是,新型数据需求将高速增长。随着大模型全面提速、人工智能应用场景日益丰富,将产生新的数据服务模式,数据服务向更高质量、更低成本、更高效率方向发展。并且伴随着全球化日益加深,多语种数据需求将持续上升。

三是,训练数据规模将成为大模型竞赛的“胜负手”目前大模型技术的真正影响竞争力因素是场景化能力,而提升场景化能力必然要依靠大规模的数据训练。因此在短期内,加大训练数据规模必然成为提升大模型能力的主流路径。

据艾瑞咨询预计,2025年,中国AI基础数据服务市场规模将突破100亿大关。德勤发布的另一则数据显示,到2027年,市场规模有望达到130亿-160亿元,年复合增长率达23.6%-28.9%。

当然,基础数据服务行业还面临着很多挑战,从宏观上看,受经济波动影响,部分客户会缩减研发预算,对数据需求将出现短期阶段性减缓,进而影响营收;从行业上看,市场竞争比较分散,依然存在数据安全与合规问题。

数据服务要能解决单点问题,提高场景化应用能力

AI基础数据服务行业主要面向B端客户,这让外界看起来距离C端人群很远。但事实上,在数字化时代,每个人都与数据息息相关,也都无时无刻不在使用数据。

尤其是“百模大战”以来,业界普遍认为,相较于单纯提高参数数量,训练数据的规模、多样性会带来更好的效果提升。换句话说,训练数据直接决定着大模型的能力,也进而影响着C端用户的体验感。

那么,AI基础数据厂商到底如何为客户赋能?

标贝科技的数据业务是基于自研的AI数据平台,为企业AI技术研发与场景化落地提供数据采集和标注服务,包括文本、语音、图像视频、点云等全数据类型,可根据用户需求提供定制化训练数据解决方案


训练数据过程主要包括设计、采集、加工、质检等环节。以标贝科技数据采集业务为例,可支持多场景、多渠道,覆盖全球180多个国家和地区的超过250种语言和方言采集,以及多人种、特定场景及物体、特定语言及载体的图像视频采集等能力。

在刘博看来,数据服务商最核心的能力是为客户解决单点难题,在单点问题上取得突破,再由点及面,提升场景化服务能力。换言之,能否解决单点问题,是衡量数据服务商竞争力的标准

为此,标贝科技进行了前瞻性布局。布局的核心是研发过硬的产品,以产品为抓手,针对特定的需求场景,提高专业应用能力。

“安全与合规要求越来越高,也是最重要的趋势之一,国家陆续出台了多项法律法规等,不断加强各领域数据安全规范,对数据服务商来说需要格外重视数据安全。”刘博介绍。

竞争走向垂直细分化,标贝科技要提供高质量数据服务

从定位来看,标贝科技围绕产业链提供一体化的AI基础数据服务,通过持续的场景化赋能,用数据帮助用户实现价值提升。

依托一站式AI数据平台以及严格的管理流程,标贝科技构建了一套完备的多场景数据闭环方案。覆盖从数据获取、海量储存、数据检索、数据处理、数据标注、数据管理、模型训练、评测调优完整闭环流程,以灵活应对各应用场景下的数据需求。

目前,标贝科技已积累了海量可商用的通用及垂直领域多模态数据集。同时,凭借专业稳定的定制化数据采集和标注能力,能够为大模型、自动驾驶、智慧金融、智慧医疗、泛娱乐等领域提供量身定制的行业场景解决方案。

研发产品要以客户需求为导向,客户需要的是高质量数据服务。标贝科技认为,判断高质量的关键是对特定场景发挥有效作用。因此标贝科技致力于为客户提供高质量的数据及衍生服务。

当然,数据服务行业玩家众多,国内有上市企业海天瑞声、数据堂等,国外也有Databricks、Scale AI等知名企业。随着未来AI技术的进一步发展,市场竞争格局将会朝着垂直化、细分化发展。

2024年,标贝科技在技术上取得了一项新突破。全新升级了标注工具AI数据平台4.0。平台集成先进标注工具、智能预标注模型及高效项目管理能力,全面支持语音、图像、视频、点云、4D-BEV、文本、文档、多模态、大模型等百余种主流标注场景,提升数据标注精准度与效率。


“客户选择数据服务商,以往侧重于因素价格,而未来将更多的聚焦于专业性。进入2025年,标贝科技致力于进一步加强自身在数据服务领域的核心竞争力,包括深化专业知识积累、优化工作流程、加强数据安全与合规管理,以及严格把控质量控制与服务支持等多方面能力的提升,在专业领域持续深耕细作,以更专业的姿态迎接市场机遇与挑战。”刘博强调。

提供AI基础数据服务,这门生意的门槛并不低,不仅要求数据厂商对数据要有专业理解能力,还要在拥有丰富的实践经验,能够根据客户的实际需求,制定出最优的数据处理方案。

这些要求不仅体现了数据服务商的专业素养和技术实力,也是其在市场上赢得客户信任和份额的关键所在。

为此,标贝科技持续加大研发投入,尤其在团队建设上下足了功夫,打造了一支由专业人才组成的数据服务团队。

“业绩是最好的证明,2024年,标贝科技的营收已经比肩上市公司了,”刘博向亿欧透露,“未来将继续深耕国内,持续优化产品,为客户提供更高质量的数据服务。”

;