中国人民银行发布的《金融数据中心容灾建设指引》(JR/T 0264—2024)已于2024年7月29日正式实施。这一金融行业标准对金融数据中心容灾建设中的“组织保障、需求分析、体系规划、建设要求、运维管理”进行了规范和指导。面对不断增加的各类网络、业务、应用和数据风险,金融机构究竟该如何更好地规划、建设、运维其容灾系统,实现长期可持续发展的战略目标呢?
下面,就让我们听听业界的“大咖”们都怎样说……
Veritas公司大中华区技术销售与服务总监吴振岗表示,《指引》的发布是监管机构对金融行业数据保护和容灾建设管理提出了更高的要求。
“过五关”斩六将
金融行业数据中心容灾系统到底应该怎样建,又该如何运维并发挥其应有的作用?回答这个问题之前,首先还是要分析一下金融行业在容灾体系建设方面面临着哪些问题和挑战。
吴振岗从以下五个方面进行了归纳和分析。
第一,业务与技术的复杂性。
这可以从两个角度来分析。首先,多种业务系统与技术架构并存。金融机构的业务系统繁多且不断更新迭代,包括核心交易系统、信贷管理系统、风险管理系统等。这些系统可能基于不同的技术架构,如传统的集中式架构、分布式架构、云计算等,使得容灾建设需要适配多种技术环境,这就增加了方案的复杂性和实施难度。例如,传统的集中式架构在容灾时可能更侧重于数据的备份和恢复,而分布式架构则需要考虑数据的一致性和多节点的故障切换。其次,数据的多样性与海量性。金融数据类型多样,包括结构化数据(如交易记录、客户信息等)和非结构化数据(如文档、图像、音频等)。随着业务的发展,数据量呈爆炸式增长,对容灾系统的存储容量、数据传输带宽和处理能力都提出了更高要求。同时,不同类型数据的备份和恢复策略也有所不同,需要进行针对性地设计和管理。
第二,高要求的业务连续性。
这个“高”体现在两个方面。首先,严格的恢复时间目标(RTO)和恢复点目标(RPO)。通常,金融业务对中断时间非常敏感,尤其是在证券交易、支付结算等场景下,即使是短暂的业务中断也可能导致巨大的经济损失和声誉风险。因此,金融行业对容灾系统的RTO和RPO要求非常高,通常需要达到分钟级甚至秒级的恢复时间。这对容灾技术和方案的选择提出了严峻挑战。其次,复杂的业务关联和依赖关系。金融业务系统之间存在着复杂的关联和依赖关系。一个系统的故障可能会影响到其他相关系统的正常运行。在容灾建设中,需要全面考虑这些业务之间的相互影响,确保在灾难发生时能够快速、准确地恢复关键业务,同时避免对其他业务造成不必要的影响。
三,管理与运维的挑战。
首先,多厂商、多技术的整合与管理是一道难关。金融机构在建设容灾系统时,往往会涉及到多个厂商的产品和技术,如存储设备、服务器、网络设备、容灾软件等。这些产品和技术之间的兼容性和互操作性需要进行充分测试和验证,否则可能会导致容灾系统的不稳定或故障。同时,对多厂商、多技术的管理也增加了运维的复杂性和难度,需要建立统一的管理平台和流程。
其次,容灾演练的有效性和真实性也是一项严峻考验。容灾演练是检验容灾系统有效性的重要手段。但在实际操作中,容灾演练可能会受到各种因素的影响,如演练场景的设置不够真实,演练过程中对业务系统的影响过大,演练人员的操作不熟练等,都可能导致演练结果不能真实反映容灾系统的实际性能和可靠性。此外,频繁的容灾演练也会增加运维成本和对业务系统的影响,需要在演练的频率和效果之间找到平衡。
四,在成本与效益间寻找平衡。
从建设成本的角度看,容灾建设需要投入大量的资金,包括硬件设备、软件系统、网络建设、数据中心租赁等方面。对于金融机构来说,容灾建设的成本可能会占到整个IT 预算的较大比例,尤其是在建设高等级容灾系统时,成本更加高昂。因此,如何在满足业务需求的前提下,降低容灾建设的成本,是金融机构需要面对的一个现实问题。
资源利用率低始终是一个困扰。为了保证在灾难发生时能够快速恢复业务,容灾系统通常需要配置大量的冗余资源,如备用服务器、存储设备、网络带宽等。在正常情况下,这些冗余资源处于闲置状态,导致资源利用率低下。如何提高容灾资源的利用率,使其在非灾时也能为金融机构创造价值,是容灾建设中需要考虑的另一个棘手问题。
五,安全与合规的巨大压力。
在数据安全与隐私保护方面,由于金融数据涉及客户的个人信息、财务信息等敏感数据,在容灾过程中,数据的传输、存储和恢复都需要保证其安全性和隐私性。否则,一旦数据泄露,将给金融机构和客户带来巨大损失。因此,容灾系统需要具备强大的数据加密、访问控制、身份认证等安全机制,以确保数据的安全可靠。
在合规性方面,由于金融行业受到严格监管,容灾建设需要满足相关的合规性要求,如《信息系统灾难恢复规范》等。这些合规性要求对容灾系统的建设、运营和管理都提出了明确的规定。金融机构需要花费大量的时间和精力来确保容灾系统的合规性。
随着在线和移动银行服务的兴起,银行需要管理越来越多的高敏感客户数据。随着远程办公模式的快速普及,这些数据变得比以前更加零散。为此,银行不得不通过云、虚拟机和本地基础设施的复杂组合来迅速扩展其IT基础设施,这导致数据越来越碎片化,也越来越难以管理。Veritas的研究发现,由于安全措施落后于复杂的IT基础设施,63%的银行在数字化转型和数据管理之间存在着落差。这意味着银行在数据可视性和对数据的控制力方面面临着比以前更大的挑战。
除此之外,Veritas的研究还发现,46%的银行或从未测试过他们在勒索软件攻击下的灾难恢复计划,或已经超过90天没有进行过测试。近三分之二(63%)的银行承认,以前曾遭受过过勒索软件的攻击。超过十分之一(14%)的银行认为,即使数据能够恢复,也至少需要1个多月的时间。有一半(50%)的受访银行承认,曾为恢复客户数据支付过赎金。这些数据表明,银行原本可以更好地保护自己的数字资产,却没有为潜在的攻击风险做好准备。
容灾经验谈:知己知彼 分而治之
面对复杂的网络环境和日益严格的监管要求,吴振岗建议,金融企业应对管理企业数据的系统进行标准化,即打造统一的全方位的数据保护管理平台,同时建立一套完整的策略和机制。
具体来看,首先进行数据洞察,解决“其中多少数据是真正有用的”,“存储在哪里”,“是否为敏感数据”等基本问题。在对关键业务数据进行全面了解的基础上,金融企业接下来就要对业务连续性和灾难恢复流程进行优化。因为在发生勒索攻击时,加密的备份是最后的防线。但是需要注意的是,任何没有经过试验和测试的备份计划都是没有意义的,所以需要进行必要的恢复验证和演练。
吴振岗表示,测试灾难恢复计划可以帮助企业发现从未发现过的漏洞。比如,备份是否被充分隔离,并且能够有效避免感染扩散?有价值的数据是否有足够的副本?副本的保留时间是否足够长?只有定期的演练和测试才能对这些情况了如指掌。实际上,测试并不复杂。例如,安排工作人员检查以确保在主应用程序发生故障时备份网站能够正常运行,或执行单一文件恢复并检查恢复的副本是否与原始文件相符等。需要注意的是,测试和验证必须是定期的、可重复的,这是企业备份策略的重要组成部分。
从Veritas的实践来看,根据《指引》的要求,Veritas可以为金融行业客户提供多种产品和解决方案的组合,以支持不同的容灾级别。
数据级容灾:Veritas的数据备份产品(即Veritas NetBackup和Veritas Backup Exec)能够满足金融数据中心对于数据备份的频率、数据完整性的要求。例如,Veritas NetBackup和Backup Exec数据备份产品可以按照设定的时间间隔完整备份关键金融交易数据、客户账户数据等,并且在恢复时,保证数据没有损坏或丢失。
应用级容灾:Veritas的集群和复制产品(即Veritas Cluster Server 和 Veritas Volume Replicator),可以实现应用系统的快速切换和恢复。比如,当核心金融交易系统出现故障时,集群服务器可以在短时间内将应用切换到备用服务器,以确保交易不受影响,并且在切换后,应用系统能够正常运行。
业务级容灾:从整体业务流程角度,Veritas的产品组合能够保证金融业务的连续性。例如,在遭遇灾难场景时,Veritas提供的各种产品(包括文件系统Veritas File System、卷管理产品Veritas Volume Manager等)能协同工作,使得从前端客户服务到后端数据处理等一系列金融业务环节都能有效恢复运行。
持续探索云容灾
当前,金融行业正在云容灾方面持续探索和实践。尤其是大型银行、证券等金融机构,凭借雄厚的资金和技术实力,较早开始探索云容灾技术,并在部分业务系统中进行应用。例如,一些大型银行将非核心业务系统的容灾部署到云上,通过云服务提供商的基础设施和技术能力,实现了数据的备份和业务的快速恢复。
混合云架构是目前主流的架构设计。这是因为大型金融机构通常拥有复杂的IT架构和大量的业务系统。为充分利用云计算的优势,同时保证数据的安全性和业务的连续性,金融机构倾向于构建混合云容灾架构,将关键业务系统保留在本地私有云或数据中心,同时将部分非关键业务或备份数据存储到公有云中,以实现成本效益和灵活性之间的平衡。
企业现在可以将云视为另一个备份目标。云中有许多不同的存储类型,包括可用于归档的存储和不可变存储。此外,在灾难恢复的场景下,企业无需使用专用且昂贵的数据中心作为辅助站点,而是可以使用云有效地按需启动数据中心。
吴振岗特别提醒说,企业需要在云中备份数据。一种常见的误解是云提供商会帮助应对和处理勒索软件威胁。Veritas《确保企业在多云环境下的安全》的调研数据显示,99%的受访者认为,公有云服务供应商会负责保护他们云中的部分资产。但事实并非如此。大多数的公有云服务供应商已明确说明,虽然他们确保云韧性,但客户需要负责保护云中自己的数据和应用。因此,企业需要使用与本地环境相同的技术来保护云中的数据。
人工智能是可以信赖的助手
作为一种新的使能技术,人工智能(AI)也在向容灾领域持续渗透。Veritas一直在运用AI技术赋能数据保护管理解决方案。2024年9月,Veritas发布了Alta Copilot,进一步增强了Veritas网络韧性产品组合的实力和能力。
“AI加持的创新产品组合,让网络恢复变得更简捷、更智能、更快速。通过对备份数据中恶意软件的哈希值进行跟踪和爆炸半径分析,进一步增强安全性,加快威胁检测速度,可以更快速地响应勒索软件,并将扫描和评估恶意软件在整个系统中传播的时间缩短93%。”吴振岗如是说。
Veritas利用新的交互式指引,实现了主动的灾难管理和网络恢复,为客户量身定制有效的风险管理;通过主动的深入分析,提供推荐的恢复点,实现最优化的恢复。有了AI的助力,就不再需要依靠人工手动识别“最新的干净数据副本”,而是可以通过风险引擎分析,最大限度地减少对昂贵的恶意软件扫描的依赖,从而缩短恢复时间,减少潜在的数据丢失风险。
吴振岗总结说:“通过扩展的AI辅助功能,我们可以消除网络恢复过程中的不确定性,让企业能够快速、自信地从勒索攻击中恢复,最大限度地减少业务中断。”
我们也期待,AI技术能够在金融行业数据中心容灾中发挥更大的潜能。
往/期/回/顾