当前位置:首页 > 技术与方案 > 网络管理相关

把脉宽带网故障

(2012-09-03 20:23:09)

计算机网络与独立的计算机系统是不同的,特别是在大型计算机网络中一旦服务发生故障时,往往不能轻易、具体地确定故障所在的准确位置以及故障的性质和原因,而需要协调技术力量,调配网络资源,获取关键技术文档等各方面的支持。因此,需要有一个故障管理系统,科学地管理网络发生的所有故障,并记录每个故障的产生及相关信息,提供技术资料、应对策略和恢复方案,减少故障产生的影响,最后实现故障恢复。然而在大型网络主干发生故障时往往导致网管系统失效,网络故障诊断和恢复常常是依靠网络管理员的技术和经验实现的。

主干网络应包括网关路由器、主干交换机和与其相关的通信线路,主干网络的中断会直接影响到整个网络的正常运行,是网络中最为重要的故障管理。主干网络的管理员可以通过网管系统了解整个网络的运行情况,但是在处理网络故障时必须具备独立干预整个网络的能力。本文记录了某城市宽带网(ISP)发生的一次事故诊断和恢复的全过程,供从事网络管理的同行参考。

网络环境
某中心城市一家中等规模的ISP,约3000台联网主机,网络结构如图所示 :
1、网关路由器      cisco7000       200.200.200.1
2、外部主干交换机   catalyst 6000      200.200.200.2
3、防火墙        ciscoPIX520       200.200.200.3
4、网管      ciscoworks2000    200.200.200.10
5、网管宿主交换机   catalyst3524    200.200.200.11
(IP地址假设)(见图一)

故障发生
今年5月的一天下午5时,网管服务器显示“由于通信问题,收不到任何信号”,屏幕显示所有连接中断,网管失效,网络中断,随及客户问讯电话不断。
故障检查
管理员在网管服务器上卸下网管服务进入操作系统ping 网关路由器:
D:>ping 200.200.200.1
Pinging 200.200.200.1 with 32 bytes of data:
Request timed out.
Request timed out.
Reply from 203.207.242.1: bytes=32 time=1033ms TTL=254
Request timed out.
在其他客户端ping 网关路由器:
C:>ping 200.200.200.1
Pinging 200.200.200.1 with 32 bytes of data:
Request timed out.
Reply from 203.207.242.1: bytes=32 time=1509ms TTL=253
Request timed out.
Request timed out.
从consule口登录网关路由器ping www.Cisco.com
gateway7000#ping www.cisco.com
Translating " www.cisco.com "...domain server (200.200.200.250) [OK]
Type escape sequence to abort.
Sending 5, 100-byte ICMP Echos to 198.133.219.25, timeout is 2 seconds:
!!!!!
Success rate is 100 percent (5/5), round-trip min/avg/max = 501/508/514 ms
Ping主干交换机
gateway7000#ping 200.200.200.2
Type escape sequence to abort.
Sending 5, 100-byte ICMP Echos to 200.200.200.2, timeout is 2 seconds:
.....
Success rate is 0 percent (0/5)
gateway7000#        
                    
显示网关路由器下行端口状态:
gateway7000#show interface fastether0/1
FastEthernet0/1 is up, line protocol is up
Hardware is AmdFE, address is 0003.6b42.9751 (bia 0003.6b42.9751)
Internet address is 200.200.200.1/24
MTU 1500 bytes, BW 100000 Kbit, DLY 100 usec,
reliability 255/255, txload 5/255, rxload 1/255
Encapsulation ARPA, loopback not set
Keepalive set (10 sec)
Full-duplex, 100Mb/s, 100BaseTX/FX
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:00, output 00:00:00, output hang never
Last clearing of "show interface" counters never
Queueing strategy: fifo
Output queue 0/40, 0 drops; input queue 0/75, 0 drops
5 minute input rate 320 bits/sec, 2packets/sec
5 minute output rate 1206 bits/sec, 2 packets/sec
243234708 packets input, 401322434 bytes
Received 899150 broadcasts, 0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
0 watchdog
0 input packets with dribble condition detected
277821706 packets output, 1588715704 bytes, 0 underruns
0 output errors, 0 collisions, 2 interface resets
0 babbles, 0 late collision, 1444362 deferred
0 lost carrier, 0 no carrier
0 output buffer failures, 0 output buffers swapped out
gateway7000#                               
从consule口登录外部主干交换机,显示上行端口状态:
c6000out#show interface FastEthernet0/0/0
FastEthernet0/0/0 is up, line protocol is up
Hardware is epif_port, address is 00d0.58c5.bd07 (bia 00d0.58c5.bd07)
Internet address is 200.200.200.2/24
MTU 1500 bytes, BW 100000 Kbit, DLY 100 usec, rely 255/255, load 1/255
Encapsulation ARPA, loopback not set, keepalive set (10 sec)
Full-duplex, Auto Speed, 100BaseTX
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:00, output never, output hang never
Last clearing of "show interface" counters never
Queueing strategy: fifo
Output queue 0/40, 0 drops; input queue 0/75, 0 drops
5 minute input rate 904000 bits/sec, 227 packets/sec
5 minute output rate 67928000 bits/sec, 893 packets/sec
253168918 packets input, 3892093814 bytes, 0 no buffer
Received 1489555 broadcasts, 0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored, 0 abort
0 watchdog, 1706548 multicast
0 input packets with dribble condition detected
215539243 packets output, 2655318668 bytes, 76645 underruns
76645 output errors, 0 collisions, 0 interface resets
0 babbles, 0 late collision, 0 deferred
0 lost carrier, 0 no carrier
0 output buffer failures, 0 output buffers swapped out
c6000out#            
                                      
诊断与恢复

通过上述检查,管理员已经掌握了必要的信息。网关路由器向上的通信是正常的,但不能与外部主干交换机正常通信。网管服务器和客户端不能与网关路由器正常通信,不难看出有问题的通信路径都经过了网管宿主交换机,一定是该交换机出了问题!兴奋的管理员迅速换上了备用交换机。怎么了?情况没有任何改变,故障依然存在。
到底是什么地方出了问题呢?一定是疏漏了什么重要信息!让我们仔细看一看前面的检查结果,为什么外部主干交换机上行端口的外出流量那么大,超出了正常情况的二十倍,根据交换机输出输入均衡的原则一定存在大数据流量的来源!管理员迅速检查了外部主干交换机的48个用户端口终于找到了大数据流量的源端口,关闭该用户端口,切断了数据源,网络瞬间恢复正常。至此,网络通信中断时间一小时二十一分。

故障的调查与分析

经事后对事故的调查与各种记录数据的分析表明,事故起源于某企业用户的一台HP服务器,该服务器使用Linux操作系统,安装了第三方的代理及用户管理软件,故障发生时该服务器向一个属于印度尼西亚的IP地址发送大量UTP数据包,数据包产生的流量顺利通过了通信线路和外部主干交换机,但超过了网管宿主交换机catalyst3524的容量,该交换机过载保护,导致网络中断。而由于管理员经验不足,未能及时找出故障原因,使故障成为事故。管理员说:“再遇到类似情况,只要给我五分钟”。

作者:安徽省经济信息中心 姚若宁

更多
关闭窗口 打印 
网站首页    -    联系我们    -   收藏本站    -    网站地图                                                               客户服务热线:0571-85023000
本网站所有网页信息已申请知识产权和著作权保护,版权归四海光纤公司所有,未经授权禁止任何人复制或镜像,违者必究。
公司主营:杭州光纤光缆视频会议系统,是专业的通信网络工程、视频会议系统建设专家

中华人民共和国备案号:浙ICP备10018243号