昨天下班时候,乡下机房里的一台三层交换机不通了,从能够访问到的相邻设备上来看,互联端口状态正常,没有错包,流量很小(几K),在相邻设备上查看OSPF邻居都能看到邻居是死的
现场的人不懂技术,所以我能通过电话获取的信息就只是出问题的交换机看上去工作是正常的,供电正常,没有告警,所有端口的灯都是绿的并且有闪动。确定该设备上联的城域网设备正常,路由也正常,问题肯定在那台三层交换机上。
没办法,只好拉上司机跑一趟,司机大哥带了两个豆沙饼,路上一人一个。
断网50分钟后到现场,串口连上去,看上去设备工作也是正常的,所有端口都是UP的,端口流量很低,ARP表里看不到上联及互联端口对面的MAC,CPU占用正常,甚至交换机日志里除了一个下联百兆端口时不时UP-DOWN以外没有一点问题。应该也不是光功率的问题,不会所有光口上同时出现光功率问题导致不通。
实在找不其他问题了,怀疑那个时不时翻转的百兆口有问题,于是把它shutdown了,20秒左右以后,设备正常了,再打开那个端口,立刻又不通了,在这个故障重现过程中,三层交换机上日志没什么可疑的地方,spanning-tree正常,没变化。
后来确定是该端口上下联的一台二层交换机坏了,更换那台小交换机就没事了。

订阅我的BLOG(RSS)