故障说明

在12月27日凌晨5点左右，客户收到业务告警业务无法正常运行，6点半左右将service name服务移到2节点，并且重启1节点主机，恢复业务。

故障描述

12月27日故障，工程师分析故障时间点数据库alert日志发现大量缓冲区不足的报错，从12月27日00:54分开始一直报错到

早上6点半重启数据库。

12月27日的报错完全匹配上oracle mos上的（Doc ID 2041723.1）

故障报错

官方mos故障介绍

官方说法此问题的原因为网络缓存不足。

1. 根据官方建议修改内核参数vm.min_free_kbytes，值为节点数*总内存*0.4%（作用为强制Linux 系统最低

保留多少空闲内存）

2. 修改lo网卡（网络回环网卡）MTU参数为16436（MTU参数限制了网络通讯中每次传输IP包的大小，当发送

UDP报文长度大于MTU时，IP层会对报文进行分片和重组），无需修改交换机mtu参数。

3. 大页没设置内存锁，建议设置内存上限。

4. swap空间建议从16g加至32g

5. 12月27日06:30重启数据库之前，大页配置了但未生效，导致大页空占130g内存。

6. 网络工程师排查1节点bond0、bond1、lo网卡和网络日志在2022年12月27日0:30——6:30之间是否存在报错