在RAC中集群的时间应该是保持同步的,否则可能导致很多问题,比如:依赖于时间的应用会造成数据的错误,各种日志打印的顺序紊乱,这将会影响问题的诊断,严重的可能会导致集群宕机或者重新启动集群时节点无法加入集群。
在11gR2前,集群的时间是由NTP同步的,而在11gR2后,Oracle引入了CTSS组件,如果系统没有配置NTP,则由CTSS来同步集群时间。
NTP和CTSS是可以共存的,且NTP的优先级要高于CTSS,也就是说如果系统中同时有NTP和CTSS,集群的时间是由NTP同步的,CTSS会处于观望(Observer)模式,只有当集群关闭所有的NTP服务,CTSS才会处于激活(Active)模式。
以下是集群时间同步的两种模式:
1)NTP同步模式
节点1的octssd.log中记录发现ntp服务,ctss服务会自动切换到观望模式。
节点2的octssd.log中也会记录发现ntp服务,ctss服务为观望模式,并且同步时间的主节点是节点1。
2)CTSS同步模式
节点1的octssd.log中记录没有发现ntp服务,ctss服务为激活模式。
节点2的octssd.log中记录没有发现ntp服务,ctss服务为激活模式,同步时间的主节点是节点1,并且会告诉你集群的时间有差异,但是因为差异过小,无需调整。
虽然集群时间不一致,但是这种情况下校验结果是通过的,而且略微的差异范围内集群也会自动同步回来。
如果在我们生产系统中碰到集群时间不一致会导致什么结果,我们的排查思路是怎么样的,以下是模拟集群时间不一致的场景。
更改节点2的时间后在ASM和DB的alert日志中产生了以下的告警信息
点击(此处)折叠或打开
VKTM进程发现系统时间变了,alert日志会产生相应的告警信息,从产生的trace文件中可知,系统向前推进了172844812599微秒,也即为48小时(也就是我们模拟更改的时间),而允许的差异范围为1秒。
节点2的octssd.log中和ctss状态都记录了偏移的时间,而且校验也是失败的,校验结果是需要同步节点2的时间,此时因为集群时间差异较大,同步服务往往是无法做到的,只有手工同步才能修复。
在没有同步时间之前,重启节点2是无法正常启动的,从以下命令可知是在ctss这一步有问题,通过重新更改正确时间后,集群才能正常启动。
| 作者简介
管海涛·沃趣科技高级数据库技术专家