金融行业作为国内信息化发展最早、最成熟的行业之一,在数字化应用不断深入的情况下,传统运维面对微服务、容器、虚拟化等显得愈加力不从心,金融行业要建立与全新架构能力相匹配的运维体系, 提升业务运营感知能力、基础架构运维掌控能力和敏捷业务支撑能力 , 保障业务连续性和安全稳定运行。这种新的需求指向可观测性、数据分析处理和告警收敛准确度提升等方面。
1、在众多应用中逐渐失去平衡
由传统集中式架构向分布式架构转型,容器、微服务等云原生技术的底层架构云化升级,架构转型演进的过程带来的是IT单元部署数量的显著增多。过去, 运维管理的IT设备和数据的比例是1:100,未来,这一比例正快速变成1:100 n ,运维人员面对的IT设备和数据规模呈几何级增长。
不仅如此,微服务化以及分布式的依赖关系导致服务调用错综复杂,容器下的环境动态性增强,这让运维排障变得更难。全新架构、系统众多、可见性更差,传统运维依赖人的技能和经验大打折扣,运维效率在“快”与“稳”中失去平衡。
2、在告警风暴中迷失
在云环境和混合异构环境之下,IT运维的复杂度在不断上升。金融业务系统本来就比较庞杂,前中后台的业务系统叠加不同的技术路线、不同的产品,包括开源、开源的二次开发 、商业化产品的混合使用,让底层的IT基础设施也各有差异。 IT运维在跨系统的环境中反复横跳,运维难度不断攀升,即使一个饱有经验的运维管理人员发现故障后,也要耗费大量时间检查每一个系统,进行例如状态数据分析、抓包分析才能定位故障。这种依赖人力的运维效率在系统复杂、工作量大的环境中就显得捉襟见肘。
3、缺乏数据分析处理能力
结合用户现状及需求,在保障系统稳定运行的前提下,提高运维各个环节的运行质量。
通过AI机器学习算法,对监控对象及应用指标产生的数据,进行计算、分析、告警。 通过趋 势性的数据分析展示,提供业务所需的资源、容量需求等,避免资产盲目扩张造成的资源浪费,有效控制成本。
对具有周期性、趋势性、季节性的海量时序指标数据进行异常检测,极大提高了运维效率和告警准确性。 监控指标异常检测,例如CPU、内存、业务系统黄金指标,延时、并发量、错误等监控指标; 应用指标异常检测例如应用的活跃用户数、访问页面数、响应时间等业务指标。
将运维对象及关联关系、运维流程、运维活动、运维管理信息转换成数字化的图形或图像进行展示, 部署多样化展示大屏, 支持全链路监控功能,提供监控指标对象的dashbord直观呈现,提供业务系统的应用拓扑关系, 提高根因排查与故障定位效率。
各种监控工具会产生海量告警信息,可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低运维工作的效率。
告警收敛合并可针对短时、大量的、甚至是持续的冗余告警,通过文本相似度、链路相关性、时间相关性判断,对冗余告警进行合并降噪,为运维人员提供有效的告警信息,大大提高运维效率。