Bootstrap

AI 原生时代,更要上云:百度智能云云原生创新实践

本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。

图片


我今天分享的主题,是谈谈在云计算和 AI 技术快速发展和深入落地的背景下,百度智能云在云原生的基础设施产品和技术层面做的一些创新实践。

毋庸置疑,过去十几年云计算和 AI 技术是两波大的技术浪潮,在激烈竞争的时代背景下,各个行业纷纷基于这些新的技术做数字化转型以及智能化升级,提升自己的创新速度,构建更好的产品体验和客户体验,提升竞争力。

我们这里可以看两个报告的一些数据。沙利文在《2023 中国企业数智化转型市场研究报告》中关于全球以及中美云服务在 IT 支出中的占比数据,云服务的占比在持续攀升。麦肯锡关于 AI 技术在企业中的落地渗透率的调研报告中,也能看到渗透率已经超过了 70%,尤其是去年开始的生成式 AI 技术更是加速渗透,短短一年的时间从 33% 预期提升到 65%,生成式 AI 等相关技术广泛应用到企业的生产、营销、客服、办公环节。智能化是新趋势,行业进入了 AI 原生时代。

当然也能看到云服务在整体 IT 支出中的占比相对还是比较低的,中国和美国相比更是有一定的差距,我们在这方面还有很大的提升空间。

图片

AI 原生时代进行智能化升级,我们认为企业要以坚实的数字化为基础。智能化就是数字化的新阶段,上云应该成为企业 IT 基础设施方案的默认选择,需要完成全面上云和系统架构的云原生化。

一方面是企业全面上云,相比传统 IT 基础设施,云基础设施可以让企业基于即开即用、弹性伸缩的 IT 服务来构建业务,从而减少前期投入的资金和周期,CAPEX 向 OPEX 转变,同时有更多的时间投入到业务创新中。另一方面也要完成系统架构的云原生化,上云用云不仅仅是基础架构中资源供给方式的改变,也是企业应用架构和研发流程的改变。

过去几年,随着云计算技术的深入落地,可以看到每个层次都在发生新的变化。云原生的基础架构、微服务应用架构、DevOps 研发流程正在成为新的研发范式。

到了 AI 原生时代,AI 算力的 CAPEX 投资规模更大,AI 技术的迭代速度更快,最先进的 AI 模型也优先以云服务的形式对外提供服务,这就需要在基础设施层面要更加全面彻底的云原生化,以此为基础构建 AI 原生的应用架构,并面向 AI 研发进行 MLOps/LMOps 的研发流程升级。

图片

在以上的行业背景下,百度智能云面向 AI 原生时代对于云基础设施服务进行了全面重构。

AI 原生应用对于基础设施的需求包含智能计算,通用计算和数据三个层面。智能计算基础设施服务于 AI 模型的训练和推理;通用计算基础设施服务于应用系统的托管;数据基础设施服务于 AI 训练以及应用落地过程中的数据存储和管理分析。这三者在 AI 原生时代形成有机的整体,帮助客户构建数据飞轮,持续提升业务竞争力。

在重构过程中,面向新的场景和需求,百度智能云重点加强升级了相关特性能力,包括极致弹性的计算,面向 AI 场景的存储,以及更高性能、更易运维、更多部署形态。下面分别就每个特性产品技术侧的一些进展给大家做一些汇报。

图片

弹性是云服务的关键能力之一,极致的弹性能够帮助客户更灵活地应对业务变化。百度智能云持续致力于基于软硬一体的资源底座,弹性可扩展的平台架构为客户提供灵活丰富的产品形态,实现极致的弹性。

具体在产品能力层面有如下升级迭代:首先在购买方式层面,支持了包年包月、按量后付、抢占实例、预留实例券等多种形式。在快速交付层面,千台云服务器实例支持 3 分钟极速创建,5000+ 节点容器集群快速拉起。在网络层面,基于网关 NFV 化,可支持更加灵活弹性的组网。基于以上能力,客户就可以针对自己的业务负载特点,选择合适的产品形态,做到极致的弹性降本。

图片

数据对于企业 AI 落地是至关重要的,百度智能云构建了面向 AI 场景的数据湖存储体系。以对象存储 BOS 作为数据湖存储底座,支持多种模态的数据统一管理和存储。同时在元数据和存储引擎多个层面进行了优化,提升在不同应用场景的易用性和性能,并提供了数据湖存储加速 RapidFS,并行文件存储 PFS 和文件存储 CFS 等多种产品形态,可以灵活高效的满足大数据,机器学习和深度学习场景的分析需求。

百度沧海·存储具有如下特性,基于对象存储底座,可以支持海量文件存储以及存储量的无限扩展;存算分离的架构,可以让整体数据处理体系弹性按需, 提供丰富的指标监控系统,支持客户全托管免运维;多级存储产品体系,以及基于生命周期的沉降功能,进一步帮助客户降低成本;同时也兼容业界主流的存储协议,包括 POSIX、HDFS、S3 等。

图片

提供更高的性能一直是百度智能云追求的目标,我们在这方面也进行了全面的升级。

通过不断更新迭代的硬件来提升算力性能水平,新一代算力性能升级 50%,单核提供更强的算力,并支持弹性频率配置。云服务器实例带宽进入 200G 时代,基于百度太行 DPU 和虚拟网络架构的升级,VPC 支持 300w IP 地址空间,每秒 3k+ 的 IP 地址分配速度;通过自研交换机,专线网络接入能力支持 100T+,满足用户超大吞吐数据传输需求。新一代的流式存储引擎,发挥 HDD 顺序访问/预读的优势,大文件的存储读写性能提供 70% 以上。

图片

随着用云的深入,如何高效的运维管理云基础设施变成了很大的挑战。

百度智能云构建了覆盖业务全生命周期的运维管理体系,包括资源迁移、服务部署、变更、监控、报警、故障分析处理,扩缩容和资源管理等,在每个阶段提供了全面完善的功能。

同时基于生成式 AI 技术,打造了智能化运维体验,发布的云服务器管理终端 SmartTerm,支持客户使用自然语言来描述需求,降低运维成本,提升运维效率。其他云助手批量执行,管理控制台 AI 助手等更多功能也欢迎大家进入产品实际体验。

图片

AI 原生时代 AI 技术会在很多场景落地并产生数据,而计算要以数据为中心,能够在产生数据的地方及时进行计算,同时需要解决特定行业客户数据和算力本地化安全合规需求。基于此百度智能云打造了分布式云基础设施,支持在云中心、云边缘、移动边缘、本地数据中心等地部署云服务。

这些云服务结合百度自有骨干网和混合云网络能力可以整体连接打通,支持云、边、端全域的网络互联。公有云、专属云、私有云同源同栈,基于云管平台支持一体化管理,降低管理成本。通过广泛覆盖的边缘节点,可以就近提供算力,满足不同场景的需求。

图片

最后分享两个百度智能云在行业的具体实践案例。

首先是百度智能云加速汽车行业创新的案例。汽车行业正处在一个巨大的变革时代,同时竞争也非常激烈,销量 PK 已经进入了周粒度。这一轮变革网联化和智能化是两个关键词,企业纷纷加速创新,以更好地抓住机会。

网联化和智能化对于汽车行业的基础设施也提出了更高的要求,如果采用传统 IT 模式建设基础设施,周期和能力都难以满足需求。百度智能云为造车新势力客户构建了高可用的弹性基础设施,帮助客户构建了领先的自动驾驶云平台。

  • 首先通过云网络构建了全局一张网,连通客户的全国办公网和生产网,以更好的支持产销一体化管理。
  • 然后在自动驾驶能力研发支持层面,通过云存储和遍布全国的边缘计算节点,支持将海量的自动驾驶数据安全高效的回传,从而加速自动驾驶能力迭代。
  • 最后在企业经营系统支撑层面,数据库和大数据服务也能够全面支持 OTA,账号,订单等业务应用的稳定运行。

图片

下面看一下我们在互金行业的案例。

互金行业在需要弹性按需的基础设施的同时,因为政策原因对于合规也有很高的要求。

百度智能云支持了互金行业的首例大规模金融私有云建设,做到了关键云服务的 100% 自主可控,建设的私有云涵盖了两地三中心的金融级容灾架构、CPU 和 GPU 双算力和网络层能力,以及全系列的云产品和安全合规能力,整体支撑了客户的金融科技层和应用层服务。

在运营合规层面,通过全面细致的方案实现了全业务上云,其中两地三中心的容灾架构和运维管理水平也做到了行业领先。同时,基于弹性的合规云服务能力,帮助客户在多领域开展联合科技创新,支持小微企业实体经济发展。

在金融私有云的建设过程中,百度智能云和客户进行探索共创,一起总结相关实践经验,联合推出了《智算中心网络架构白皮书》,帮助更多行业客户实现云化转型。

图片

百度智能云将持续打造业界领先的云计算产品,帮助客户在 AI 原生时代进行数字化转型和智能化升级,提高创新能力。在此非常感谢各位客户和伙伴的支持。

;