金融是我国经济社会运行的血脉,我国经济由高速增长迈入高质量发展阶段,各创新业务及用户感知体验的智能优化,都必须有金融科技的高质量发展作为支撑。同时伴随着5G时代到来和IPv6建设发展,金融机构网络规模不断扩大,对运维保障提出了更多挑战。银行作为对网络可用性、可靠性、安全性、连续性要求极高的金融机构,日常运维涉及资产管理、监控巡检、故障处置、维护变更、备份恢复等多方面管理需求,都会占用大量运维资源及人力成本。如何从传统手动运维转化到一体化、自动化、智能化运维,进而释放运维人员投身到更具价值的工作中,是大连银行一直坚持的生产运营建设思路方向。因此,我行持续探索先进技术和成功经验,率先从承载关键业务、变更复杂度高、业务关联性强的负载均衡设备着手,面向我行业务交付,构建可观、可查、可控、可维的一体化智能运维体系。

大连银行信息科技部
副总经理 张子超
可观、可查、可控、可维的一体化智能运维体系建设
1.化繁为简,统一管控
负载均衡在网络系统中相较于其他网络设备,是与业务具有强关联性的核心设备。运维人员不仅要管理众多负载均衡设备资产、业务资产、配置对象,还要适应国内外多品牌、多型号的不同配置管理方式和命令格式。我行首要目标是搭建“化繁为简、统一管控”的负载均衡自动化运维平台,解决品牌资产繁多、工作重复繁杂的运维痛点。
经过实施负载均衡自动化平台,目前已实现将分布在不同数据中心、不同区域的负载均衡设备和应用资产进行统一纳管,统一呈现其运行状态、设备信息、应用信息、域名信息、管理地址等,且支持所有配置对象在平台进行增删改查等基础运维操作。与此同时,平台消除多品牌异构差异,实现归一化处理,使得国内外品牌的负载设备可以跨技术栈、跨配置规则、跨品牌特性统一管控。该平台建设解决了运维实施压力大、学习门槛高的问题,有效提高了我行运维效率和整体运维能力,也为后续批量自动化作业的实施,以及业务逻辑关联关系展示能力建设等提供了坚实基础。

图1 统一管控平台架构
2.业务编排,自动部署
负载均衡除了涉及多资产多品牌,业务发布变更也同样会带来较大运维实施压力,常常需投入大量的人力和精力进行变更内容的事前审批、准备、验证等,且必须在割接窗口完成交付。人工、脚本的运维方式缺乏审计校验机制,无法预先了解结果是否达到预期。我行进一步明确建设目标在于实现“全流程全自动化、一站式业务发布”,解决流程半自动化脱节,无法审计回溯等安全合规问题。
通过平台预置的业务编排引擎,根据运维场景生成业务变更模板(服务器负载、链路负载、全局负载标准化应用场景),利用标准的API接口与ITSM、运维审计平台、项目管理平台等对接,整合流程审核系统与自动化运维平台之间的信息传递,将变更整体的申请、审核、分配、生成、复核、实施、验证、回退等全周期流程进行串联,成功驱动全流程、全自动化业务快速发布。基于实际运维场景而形成的标准化工单模板,推动填写关键参数后的自动提单,通过审批后自动生成预配置、预校验、自动下发,实现从工单发起开始到部署完成整个流程的全自动化。

图2 全流程自动化部署
对比“人工+脚本”运维方式,我行根据实际应用统计数据,平台在配置的生成、部署及验证等步骤上,效率提升达到95%,且以上数据未计算人工脚本方式出错及排查的额外时间,显著提高了运维效率,降低了运维风险。
3.动态关联,集中观测
由于负载均衡与业务系统具有强相关性,业务访问流程往往会流经多个分区的多台负载均衡。当运维事件被触发或排障分析时,即使资深运维人员捋清楚访问路径及产生原因都需要很长的时间。我行建设的终极目的在于“全盘掌握、敏捷除障”,解决人工梳理观测难,故障定位难的问题。
通过对所有负载均衡设备的纳管,平台自动生成跨品牌、跨层级且带状态、流量的业务逻辑关联关系视图,可追踪从流量入口端到服务器端的业务路径;可观测到路径中各节点的状态、流量信息;可辅助运维人员快速发现、定位问题。在故障定位后可在视图上对相应对象配置直接进行增删改查的操作,快速达到预期目的。有效帮助运维人员整体掌握运行状况,敏捷定位并解决问题。

图3 业务逻辑关联视图
4.协同合作,自服务可消费
实现负载均衡的运维一体化体系建设,不仅仅是针对运维部门,还应该与业务、管理、开发等部门协同。平台建设后具备了“自服务可消费”能力,解决多部门之间信息不互通、协作不高效的问题。
平台通过建立严谨的授权模型和细颗粒度的权限控制模块,可使兄弟部门在相应权限范围内直接管理、查询各自相关的资产信息、关联信息,可独立且快速地完成各自范畴内的工作,如蓝绿发布、配置审查、指标观测、报表导出、数据调用、调度应急等。此功能为应用人员提供了便捷、高效的数据获取方式,替代了运维部门协助手工查表的繁琐过程。有效提高了我行协同共享效率、数据处理准确性,实现了多部门多角色自助服务可消费体验。
总 结
工欲善其事,必先利其器。大连银行负载均衡自动化运维这一利剑的打造,以平台化、自动化、可视化的方式,在开发测试环境和生产环境成功搭建了负载均衡智能运维一体化平台,纳管了国内外多品牌的近百台设备,实现了设备管理、配置管理、配置备份、业务可视化、变更切换、自动化下发和监控告警等核心功能。
自负载均衡自动化运维平台自2023年初投产后,共处理业务部署工单100余个,部署及验证平均时长为5-10分钟,显著提升了整体运维效率,减少了运维压力,降低了运维风险,提高了我行运维能力,为我行业务持续交付与快速发展提供坚实的技术支撑。