一、问题描述
(告警信息)
(告警详情)
二、查找问题的原因
cpu使用率时序图
三、问题处理步骤
1、通知现场工程师,某软件PACS+数据库离线,需要协助排查软件PACS+数据库是否正常运行。现场工程师远程连接服务器,确认服务器操作系统正常运行。
2、通知软件工程师查看SQL server数据库是否正常运行
3、查找数据库离线原因
4、问题解决
将数据库重启,并对数据库占用资源设置限制,继续观察;
CPU使用率下降,恢复正常,Sql Server数据库运行正常。
小结:医院应用软件较多,软件工程师人力有限,未能及时发现PACS+数据库离线问题。MOC工程师在数据库卡死的第一时间联系用户工程师,并协助现场工程师进一步检查SQL server数据库。最终锁定数据库占用CPU资源未释放,将数据库使用资源情况做限定,从发现到问题解决只用15分钟。
-
设备多、分布广,巡检工作量大,极易错检、漏检; -
缺乏系统预警,无法预知设备运行状况; -
故障处理无序状态,依赖个人技术、手工,分散运维,风险系数高。
基于医院运维场景的需求和相关的时序数据集, 定制了ML算法(孤立森林、梯度提升树、 直方图检测),经过训练、调整后的模型, 实际验证准确率达到85%以上;经过一 线值守服务的再次筛选,准确率达到 95%左右。 AI+人力服务最终达至了基本 无误报的结果。
平台主动监控,MOC实时响应。基于资产价值定义SLA,量化服务水平,提供数字化决策依据。链接人员及流程,关联各种运维因子。平台内置ITIL流程,闭环运维,配套知识库,提供技能学习培训,避免人肉运维。也可远程申请MOC工程师协助,通过分析实时数据,查看时序图,迅速定位故障,实现高效远程协作指导。
2、业务视图
业务系统监控状况集中展示
3、工单详情
展示工单流程、基本信息、根因分析和历史相似工单