由于网卡故障导致DATAGUARD传输文件失败

由于网卡故障导致DATAGUARD传输文件失败
 
背景:
这是08年发生的案例,最近在整理文档时,把其输出成文。
在SUN V880作为4个生产库的dataguard环境,在11月28日开始发现多个生产库无法同步log日志到dataguard环境。
ge0是光口网卡。
业务网卡使用的ge0,通过eri0连接IP存储。
诊断过程:
登录到dataguard环境的查看系统日志messages:
Oct 22 15:05:48 h3cdg02-or iscsid[17486]: [ID 702911 daemon.error] connect failed
Oct 22 15:06:29 h3cdg02-or eri: [ID 517527 kern.info] SUNW,eri0 : 100 Mbps full duplex link up
Oct 22 15:06:40 h3cdg02-or last message repeated 1 time
Oct 22 15:07:02 h3cdg02-or iscsid[17485]: [ID 702911 daemon.error] socket 1 connect timed out
Oct 22 15:07:02 h3cdg02-or iscsid[17485]: [ID 702911 daemon.error] connect to 192.168.10.1 failed
Oct 22 15:07:03 h3cdg02-or iscsid[17486]: [ID 702911 daemon.error] socket 5 connect timed out
Oct 22 15:07:03 h3cdg02-or iscsid[17486]: [ID 702911 daemon.error] connect failed
Oct 22 15:07:23 h3cdg02-or eri: [ID 517527 kern.info] SUNW,eri0 : 100 Mbps full duplex link up
Oct 22 15:08:03 h3cdg02-or eri: [ID 517527 kern.info] SUNW,eri0 : No response from Ethernet network : Link down -- cable problem?
Oct 22 15:08:05 h3cdg02-or eri: [ID 517527 kern.info] SUNW,eri0 : 100 Mbps full duplex link up
Oct 22 15:08:16 h3cdg02-or last message repeated 1 time


发现日志只是报eri0的错误,像是网卡或者交换机端不断重启。
系统CPU/IO资源使用都很少,就是通过telnet连上服务器会觉得服务器很慢。
实在不知道为啥。
只好使用最后一招,init 6。
重启后,问题变严重了:不能telnet到服务器。
通过RSC登录到服务器,发现已经ping不通网关。 难道route信息丢失了。
查看路由表,确认是好的。
再查看下网卡信息,ifconfig -a查看网卡信息:
eri0: flags=1000842 mtu 1500 index 2
        inet 192.168.10.12 netmask ffffff00 broadcast 192.168.10.255
        ether 0:3:ba:a8:f6:bf 
ge0: flags=1000843 mtu 1500 index 3
        inet 10.63.20.130 netmask fffffc00 broadcast 10.63.23.255
        ether 0:3:ba:a8:f6:c0 

咋一看,没有问题。但是waiting。
ge0的状态缺少RUNNING。
对ge网卡unplumb/plumb重新配置IP,还是照旧。问题没有解决。
通过网络组,由于不知道连接到交换机的那个端口,无法查看端口信息。(后来,我觉得要是这时知道了端口,查看下端口说不定问题早已经定位好了)
到了机房,看到ge0网卡的状态灯是灭的。查看下交换机的端口,也是灭的。插拔下插到交换机上的光纤,ge0网卡的状态灯变绿了。可以ping 通IP,可以登录。
可能是到这里算是结束了,但等了10分钟,发现交换机的端口灯又灭了。难道是模块坏了?!
怀疑不如行动。
赶紧去更换了模块。再等十分钟,没有再出现异常。
到这里问题真正解决。
启数据库,同步log日志。
分析:
对于网卡状态不能为RUNNING,应该怀疑物理链路问题。

请使用浏览器的分享功能分享到微信等