把两组(4台)DNS整到ESXi上,用heartbeat做HA以后,一个多月下来跑得还算正常。但发现其中有一组,相对负载比较大的那组HA,少则2、3天,多则一周样子,总会出现heartbeat状态错误,就是明明HA两台一组里另一台状态正常,但heartbeat里看到的状态是offline的,有的时候甚至出现两台都认为对方offline了(这种情况下,貌似应该出现抢浮动IP资源的情况,但在网络设备上并没有看到有IP冲突的情况,也许heatebeat能够避免这种情况发生,业务没有受到影响,也没想去仔细研究了)。
看系统日志,发现这种“分裂症”都出现在早上4点出头,应该是cron执行定时脚本的时候。心想也许是某个脚本的执行造成了这种现象。但是除了系统自身的脚本外,在这个时间点上执行的只有自己写的一个rsync同步bind配置文件的脚本,这个脚本应该不会有这么大的破坏力。一时还真不知道怎么办。于是打算观察观察再说。
第二天偶然的机会上网看到一个帖子,有人说他的机器上makewhatis执行的时候CPU狂高,一时间心里一动,于是把那组HA里的两台机器上/etc/cron.daily和/etc/conr.weekly下的makewhatis.cron脚本里的活注释掉。反正makewhatis对我也没啥用。
也许真是瞎猫碰上了死耗子,改过以后近两周,还没有再出现类似的情况。

订阅我的BLOG(RSS)