前不久,中央网信办、国家发展改革委会同有关部门组织正式发布了《“十四五”国家信息化规划》,就不断做强做优做大我国数字经济提出了具体举措。该《规划》在分析国内外新形势,剖析我国信息化优劣势后,明确我国信息化进入加快数字化发展、建设数字中国的新阶段。
随着信息化建设的不断深入,信息系统越来越复杂,各告警源之间分散式、孤岛式,导致告警无法统一管理,告警处理流程无序,无法进行标准化处理。与此同时,数据处理量成倍的增长,极容易产生大面积事件的告警风暴。重复、冗余、大量的告警,导致无法快速筛选关键故障信息。
针对上述告警分散、告警处理、告警风暴的问题,博睿数据研发了一款全场景运维监控统一接入、海量告警降噪收敛、运维故障标准处理的新一代告警平台产品——OneAlert,旨在为企业数字化运营构建智能运维过程中,降低运维成本、提升工作效率,为业务的稳定运行保驾护航。

▲博睿数据OneAlert统一告警平台
OneAlert聚焦三大产品价值
博睿数据OneAlert是一个集告警接入、告警收敛、告警通知、告警处理、告警分析为一体的统一管理平台,产品整体架构分为事件源的采集层到接入层、存储层、处理层、展示层。用三个词来概括OneAlert的产品价值,即“统一、标准、智能”。具体而言,其产品价值主要体现在以下几方面:
1、多源事件统一接入,全方位监控覆盖
OneAlert平台支持对主流运维监控告警源(ZABBIX、Prometheus、阿里云监控等)提供统一的事件接入功能,并对接入的多源异构数据提供标准化的映射处理功能,实现了运维异常事件的全方位监控,避免因自身监控数据相互独立导致重大事件无人发现的监控死角。
第三方告警源主要分为云类监控工具(阿里云、腾讯云、华为云等)、博睿监控工具(server、NET、sdk等)、开源监控工具(ZABBIX、Prometheus等)、自定义监控工具(REST API)这四类。博睿数据产品经理郝宁补充道,“在统一接入过程中,我们需要做定制化开发,实现开箱即用、快速接入。”
2、运维故障标准处理,提升工作效率
OneAlert平台支持提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况,从而提升了异常事件的处理效率。同时,面向不同的通知要求,OneAlert平台选用不同的通知方式,实现将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响。
此外,OneAlert平台支持对故障进行处理跟踪,使运维故障处理从以前的无序到有序流程化,提升运维管理人员的整体工作效率。博睿数据产品经理郝宁表示,“从告警展示到故障通知,再到故障分析和故障处理,OneAlert平台提供了运维故障标准化处理的流程,最后实现了一个故障全生命周期的闭环管理。”
3、海量告警智能收敛,降低运维成本
OneAlert平台还支持通过告警降噪功能,对海量杂乱的异常事件进行降噪处理,大大降低了故障分析的信息量;并通过自定义标签收敛、智能AI收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。
OneAlert拥有四大核心优势
众所周知,智能运维当以数据为基础,以监控为预警,以自动化为导向,以流程为管理,以算法为支撑,以可视化为辅助。One Alert平台提供多源事件统一接入、海量告警降噪收敛、故障标准处理三大功能,赋予了企业统一告警能力和智能化数据分析能力,全面提升运维管理效率。
-
多源异构数据统一标准化接入。基于博睿数据在运维行业多年的技术积累,OneAlert平台率先实现主流运维监控工具数据源接入全覆盖,无需大量定制化开发,提供监控工具轻量级接入配置,以及多源异构数据统一标准化处理。
-
海量杂乱告警标签规则关联收敛。基于博睿数据数据处理的领先优势,在告警收敛过程中,OneAlert平台支持固定标签收敛、自定义(灵活)标签,作为收敛条件进行告警收敛,有效避免因海量杂乱告警产生的告警风暴。
-
海量无序告警AI算法智能收敛。OneAlert平台采用AI算法智能收敛,实现AIOps多场景有效支撑。从根本上,解决规则收敛的瓶颈问题。它还支持收敛组合自定义搭配使用,在规则收敛的基础上,积极开展AI能力收敛探索(AI相似+AI时域),使得收敛场景更全面、收敛能力更强大、收敛效果更显著。
-
降噪收敛运维故障标准分析处理。OneAlert平台提供完整的标准化分析处理管控能力,实现对故障(事前)及时发现、统一管理;(事中)快速响应、精准处置;(事后)分析统计的标准化全生命周期完整管控。
值得一提的是,博睿数据很早以前就成立了AI算法研究部,不断加强产品根因分析能力和预测能力,并先后在北京、厦门、武汉等地设立研发团队,与重点大学达成战略合作,通过共同的科研成果实现算法的升级创新。在信通院首批AIOps系统和工具评估中,博睿数据获评异常检测模块“全面级”评价。
当前,博睿数据的AI算法主要聚焦在告警收敛方面,以及时序数据异常检测、根因定位分析、全链路知识图谱诊断等方面。博睿数据首席架构师李骅宸指出,“未来,我们要在这基础之上层层递进,下一步到故障分类,包括时序异常检测和预测,将综合性信息给到AI,从而输出统一更好的智能效果。”
写在最后
作为领先的APM应用性能管理厂商,博睿数据始终积极拥抱新技术变革的浪潮,致力于通过人工智能等技术,为企业构建统一的IT运维管理平台。在博睿数据产品管理部高级总监孙丽看来,“未来,ITOM市场趋势就是统一,而统一和智能对应的关键词是效率,通过OneAlert平台可以大幅提升运维效率。”
博睿数据OneAlert平台打破数据孤岛,实现统一告警,构建立体化IT监控和运维管理体系,能够广泛应用于金融、能源、运营商、政府、航空、交通等行业。未来,博睿数据将持续打磨产品能力,突破创新,助力企业提升用户满意度和整体竞争力,实现数字化转型。