笔者近日在工作中发现一交换机端口的光纤模块故障造成的丢包现象,该交换机在通信一段时间后死机,即不能通信,重启后恢复正常。在经过一段时间观察后发现,某光纤模块存在问题,取一块新的模块替换,一切正常。究其原因,交换机会对所有接收到的数据包进行CRC错误检测和长度校验,将检查出有错误的包丢弃,正确的包转发出去。但这个过程中有些有错误的包在CRC错误检测和长度校验中都均未检测出错误,这样的包在转发过程中不会被发送出去,也不会被丢弃,它们将会堆积在动态缓存中,永远无法发送出去,等到缓存中堆积满了,就会造成交换机死机的现象。最终结果是,数据包无法到达目的主机。
网络拥塞
网络拥塞造成丢包率上升的原因很多,主要是路由器资源被大量占用造成的。
如果发现网速慢,并且丢包率呈现上升的情况,这时应该showprocesscpu和showprocessmem,一般情况下发现IPinputprocess占用过多的资源。接下来可以检查fastswitching在大流量外出端口是否被禁用,如果是,则需要重新使用。
再看一下Fastswitchingonthesameinterface是否被禁用,如一个接口配有多个网段并且这些网段间流量很大时,路由器工作在process-switches方式,这种情况下要在接口上执行命令“enableiproute-cachesame-interface”。
接下来,用showinterfaces和showinterfacesswitching命令识别大量包进出的端口。一旦确认进入端口后,打开IPaccountingontheoutgoinginterface看其特征,如果是攻击,源地址会不断变化但是目的地址不变,可以用命令“accesslist”暂时解决此类问题(最好在接近攻击源的设备上配置),最终解决办法是停止攻击源。
应用中遇到的造成网络拥塞的情况还有很多,如大量的UDP流量,可以用解决spoofattack的步骤解决此问题。大量的组播流、广播包穿越路由器,路由器配置了IPNAT并且有很多DNS包穿越路由器等。上述情况造成网络拥塞后,通信双方采取流量控制,丢弃不能传输的包。