科技创新,驱动运维数字化转型
党的十八大以来,以习近平同志为核心的党中央把科技创新摆在国家发展全局的核心位置,把科技自立自强作为国家经济发展的战略支撑,在国家“十四五”规划中“科技创新”“打造数字经济新优势”成为重要内容。在银行业,中国人民银行颁布《金融科技发展规划(2022—2025年)》,提出了新时期下金融领域数字化转型的总体目标和思路。
交通银行作为中国第一家全国性的国有股份制商业银行,始终践行“建设具有特色优势的世界一流银行集团”战略,明确将科技金融作为集团“十四五”期间的业务特色和重要战略方向,加快推进数字化转型,促进科技与业务的深度融合,不断提升科技引领能力,打造“数字化交行”新名片。
创变未来,开启数智运营新篇章
1.挑战促使转型。在金融科技高速演进的大背景下,交通银行数据中心面临一系列复杂的运维挑战。这些主要包括运维规模扩张,金融科技应用的快速迭代和传统核心银行业务系统扩展至各种新兴的金融科技产品和服务,以及技术栈的多样性、系统架构的复杂性、业务连续性和高可用性的要求,使得运维复杂度大幅提升。此外,云原生技术发展和微服务等框架的引入,带来应用服务数量、交互关系愈加复杂,同时还存在异构云和跨云架构,每种环境都有其独特的网络配置、存储选项和安全策略限制等,技术统一和能力整合难度较大,需要提升云原生的运维能力和管理效率。再加上数据规模的增加,对海量数据的高效处理、分析、存储能力以及安全和合规性的要求,数据治理和智能化场景相融合,提升运维效率成为运维领域的必要建设内容。
综上所述,现有的生产运维管理模式和运维工具面临运维复杂度提升、云原生和跨云异构架构、专业竖井化到跨领域一体化、运维数据规模扩大等诸多挑战。如何应对这些挑战,如何有效支撑业务快速发展,将挑战转化成机遇,亟需通过可视化、智能化、自动化能力的建设提升数据中心乃至全行运维效率和水平,转型迫在眉睫。
2.转型创造机遇。为应对挑战,践行“十四五”战略规划,实现运维数字化转型。交通银行数据中心为打破传统的部门壁垒,促进不同人员之间的协作和沟通效率,提升组织的创新能力,特别组建一支横跨多个部门、涉及多个技术领域的团队。一方面统一牵头建设面向全行的生产运维一体化平台,覆盖云上云下技术栈、构建全行一体化、企业级运维能力。另一方面结合实际、优化迭代形成囊括数据治理、标准制造、工具应用等领域的管理制度及评价体系。以管理、组织、工具为三个基点稳定构建交通银行数智运营体系,以此实现数据中心运维工作向“一体化平台运维”阶段演进,支撑向“智能运营”方向探索。
夯实底座,共享平台服务能力
2023年8月21日交通银行数据中心正式推出新一代全行运维一体化平台——“启明”,总体分为两个阶段建设,第一阶段:“建平台,夯实底座”,以一体化平台基础能力为核心建设内容,完成统一采控、数据治理、企业级CMDB、自动化等模块建设,并实现多云环境、信创环境适配,在场景侧优先建设统一监控、应急处置等重点应用。第二阶段:“搭场景,运营生态”,在第一阶段基础上,重点建设技术变更、灾备切换等场景,探索告警智能收敛、根因推荐等智能化应用。
“启明”基于平台化、服务化设计理念,采用基础能力层、运维场景层、统一门户层三层架构设计(如图1),聚焦一体化能力打造,构建集“监、管、控、营、服”为一体的自动化、智能化运维支撑平台,避免运维工具竖井化建设的问题,其融合采控、治理、服务、开发为整体,为上层业务提供强大的场景化运维支撑能力,实现运维场景丰富升级。
图1 “启明”平台三层架构
数景演进,构筑数字化发展之路
1.运维数据治理:塑造运维数字化转型的基石。运维数据治理包括沉淀数据资源、开发数据资产、构建数据服务等多个环节。这些环节旨在通过一系列治理过程,如数据清洗、数据标准化、数据模型构建等,将原始的运维数据资源转化为具有高度价值的可用数据资产。只有当这些数据资产真正应用到业务中时,它们才能转化为企业资本,从而产生明显的经济效益。数据的应用价值成为推动整个数据治理工作的最大驱动力。
具体到交通银行对运维数据治理的落地与实践,通过构建三层七域的运维大数据模型(如图2),与总分行、云上云下的各类监控工具进行对接,按照特定业务需求,基于全行运维数据规范和标准,厘清运维数据架构,提升运维数据质量,实现运维数据全技术栈统一、全数据类型统一、全生命周期管理能力。
图2 三层七域运维数据架构
数据资源沉淀方面,涵盖应用、系统、网络、设备、云五类专业领域,管理对象共38大类100+子类。接入全行重要业务系统的各类日志、交易指标、性能指标,建立三层七域运维数据模型,实现运维数据的一致性和统一化管理。
数据资产管理方面,原始数据基于已有的数据治理规范和数据字典被转换、映射成符合标准的元数据,元数据落入三层七域的标准化数据模型,数据质量、数据标准和数据安全覆盖贴源层、核心层、应用层,实现运维数据全生命周期的管理,并强化了对运维数据质量的监控,有效支持上层应用和消费场景,也为运维决策提供了更为强大和灵活的数据支撑。
构建数据服务方面,基于多领域数据的融合组织,实现业务、交易、应用系统、专业领域等多维视角的跨技术栈、跨领域数据整合,对外提供数据服务能力,适用于实时、批量的数据消费场景,高效支撑一体化监控、告警收敛、应急处置、根因定位、故障复盘、自动化切换等众多运维场景下的数据需求。
2.智能场景建设:打通数智运营“最后一公里”。数据治理为智能运维提供了可靠的保障,在确保数据准确性、完整性和一致性的情况下,以敏态感知为基础、故障定位为手段、故障自愈为目标,规划并建设了一系列智能化运维场景。敏态感知方面融合专业视图、贯穿业务链路形成全感知监控;故障定位方面进行告警收敛压缩,减少业务人员压力,辅助资源图谱、根因定位探索形成高效溯源定位能力;故障自愈方面以一键应急为基础形成标准处置能力,从固化的场景中建设联动场景,自动治愈符合特征要求的故障。
(1)一体化监控
生产运维监控可视化场景的建设,将不同领域、不同层次、不同类型的监控数据以业务为视角进行整合,形成了统一的可视化入口,监控范围覆盖总行、分行、云上云下,统一监控指标体系,实现跨技术领域的数据关联及数据分析,支撑秒级、多维实时监控及告警,监控信息联动观测,提升故障排查效率。
平台提供业务运营监控、应用一体化监控、专业领域监控、全链路监控等多样化的视图,满足一、二线不同部门、不同角色、不同场景的监控需求,改善全行运维汇总分析难以关联的问题,实现业务运营、应用拓扑与交易链路的直观展示与管控。
(2)告警收敛
集中告警模块建设,在复杂的生产事件中,通过告警过滤、压缩、降噪、收敛提升管理和排障效率。实际生产故障发生时,常伴随着海量告警的产生,这些告警不仅包括业务层面,还涵盖了中间件、系统、主机、设备、网络等多个维度,大量的告警信息包含重复、无效、冗余噪音信息,不仅消耗了有限的运维资源,还可能导致真正重要的告警被忽视,导致运维人员在故障排查过程中效率极低,难以快速做出分析决策和后续操作。
收敛模式采用多种方式实现告警过滤,一是通过告警内容压缩,根据告警内容加以过滤条件,支持告警源、应用系统、告警级别、告警类别、告警状态、告警描述等多维度的组合设定;二是通过告警时间压缩,支持按照分钟、小时、每日、固定、永久、滑动等颗粒度的时间窗口压缩汇聚;三是智能化压缩,基于文本相似度比对自动生成原始告警压缩后的告警模板,对分组事件进行相似性处理,以模版维度合并从而得到有效告警信息。通过规则和算法协同过滤、压缩,对告警进行归类、聚合、去重、降噪,减少告警通知,减轻运维人员压力。
(3)一键应急
围绕贯穿云上云下环境、打通专业领域束缚、形成安全/高效应急能力的目标,建设启动、停止、限流、熔断、切换等多个标准应急操作,形成资源、操作两个维度应急视图,涵盖自动化脚本、API操作和白屏操作多类处置方式,为全行生产操作提供安全、高效、合规的能力服务,为业务系统的稳定保驾护航。
(4)告警联动自动化
基于监控告警、自动化操作的持续数据治理以及能力建设,实现告警对象和操作对象的关联,通过定义告警策略和触发方式,以高频告警场景为切入口实现异常场景下的故障自愈,提升告警处置效率,逐步探索运维领域的“自动驾驶”领域。
(5)根因定位
通过启明一体化运维平台的监控告警模块建设,实现统一入口和一体化监测能力,同时引入根因定位算法模型,细分为基于指标、告警、日志、链路的根因分析模式。以告警根因定位举例,先结合CMDB导入软硬件、网络设备、基础组件等资源配置项及资源的关联关系,待故障发生时将一段时间内的告警按故障发生时间进行自动识别、分割和收敛,根据告警类别去重,投射到CI对象上,找出覆盖CI的子图并根据拓扑影响关系及最短距离阈值,输出所有CI对象的根因评分,针对每个收敛的故障分析根因告警和受影响的告警,根据权重给出最终推荐疑似根因结果。
数智结合,共创运营生态圈
数字化转型是交通银行的重要发展战略,数据中心将充分利用平台能力为业务赋能,创造新价值,一是建设启明一体化运维平台、一体化生产流程平台和安全管控平台协同专业运维工具构建全行生产运维体系;二是不断迭代优化底层平台架构,稳步推进智能运维场景建设,覆盖全链路监控、日志聚类、关联分析等领域;三是持续构建知识运营体系,构建生态化应用体系,逐步形成运营生态圈。