故障说明
在12月27日凌晨5点左右,客户收到业务告警业务无法正常运行,6点半左右将service name服务移到2节点, 并且重启1节点主机,恢复业务。
故障描述
12月27日故障,工程师分析故障时间点数据库alert日志发现大量缓冲区不足的报错,从12月27日00:54分开始一直报错到
早上6点半重启数据库。
故障分析
12月27日的报错完全匹配上oracle mos上的(Doc ID 2041723.1)
故障报错
官方mos故障介绍
官方说法此问题的原因为网络缓存不足。
建议
1. 根据官方建议修改内核参数vm.min_free_kbytes,值为节点数*总内存*0.4%(作用为强制Linux 系统最低
保留多少空闲内存)
2. 修改lo网卡(网络回环网卡)MTU参数为16436(MTU参数限制了网络通讯中每次传输IP包的大小,当发送
UDP报文长度大于MTU时,IP层会对报文进行分片和重组),无需修改交换机mtu参数。
3. 大页没设置内存锁,建议设置内存上限。
4. swap空间建议从16g加至32g
5. 12月27日06:30重启数据库之前,大页配置了但未生效,导致大页空占130g内存。
6. 网络工程师排查1节点bond0、bond1、lo网卡和网络日志在2022年12月27日0:30——6:30之间是否存在报错