当前位置:首页 > 技术与方案 > 网络管理相关

电源受扰导致网络故障

(2012-09-05 06:20:19)

1作者:尹岗
尹工专栏
尹岗简介:1996~1998:在DTC数据通信北京公司负责数据图象和全数字有线电视传输工程;1998~2002:在福禄克网络公司上海办事处负责计算机网络测试和性能评估。

电源干扰经常来自供电环境,有时也来自用电设备。计算机网络多使用开关电源,本身也容易产生谐波干扰,所以UPS的供电范围常作一些限制。如果用电环境的接地系统质量良好,一般不会产生大面积的干扰,否则这种干扰将可能是致命的。实际上经常的状况是,干扰总是存在的,如果干扰的幅值不大,链路衰减较小(如链路长度短),则干扰信号的强度不会超过线路信号的强度,不会造成对链路的干扰。在链路长度超长(接近90米甚至超过100米)的情况下,由于信号衰减大,较小的干扰信号也会造成对链路的干扰。不同的设备对干扰信号的反映是不同的,集线器是共享介质的中继器组,会将某条链路中的干扰传递给所有碰撞域中的成员。交换机端口具有错误帧识别功能,经常地能将干扰帧挡在门外。不过这不包括使用切发(Cut Throungh)模式和改进切发模式的交换机。

排障过程
某电信局网管中心,所在地为一地区中心,下辖两个县级市和7个县,安装在地区网管中心的网管系统在两个月前发出了报警信号,提示某县级市的网络有异常情况。一个月前省局工作组在检查工作时发现该县级市不在网管中心的网络拓扑显示图上。询问原因,当时答曰:今天正好赶上该县级市进行工程施工,所以将网络管理功能暂时关闭,故在网管机显示器上的拓扑图中无该县级市的网络图标。现在所谓“十万火急”的问题即是:明天工作组将要进行第二轮验收检查,而网管系统是此次的重点检查项目之一,不可能再用网络工程在施工为由回避检查该子网的状况。因为网络拓扑图上的报警信息仍在,该县级市的问题也一直没有彻底解决(县级市子网却一直报告网络正常,速度很快!对定位故障一直不太主动并给予配合),明日检查恐怕无法“过关”,所以才想到引入“紧急外援”。另外需说明的一点是,该故障在初期时隐时现,最近才由飘忽不定演变为高频发作甚至是持续存在的故障现象。

针对这一情况,我们决定先不去地区中心,而是直接转道前往该县级市网管中心,因为从网管指示的范围看问题很可能出在此处。另外,该中心距我们现在的位置比地区中心也更近一些。
半小时后即抵达目的地,立即投入“体检”工作。根据地区网管中心提供的线索,该子网的路由器报告错误数据流量较高,因此直接对该子网进行测试。该子网为用交换机连接的多网段结构,含8个10BaseT和18个100BaseT以太网交换机。用网络测试仪接入网络作自动监测,测试路由器平均错误流量记录为3%,有效流量为7%(广域连接用的是E1链路)。观察交换机自身提示的错误流量端口,系指向某交换机第一插槽的3#端口所连接的子网段,其它子网段测试正常。3#子网段为拥有97个工作站的100BaseT以太网网段,连接安装有DNS服务器、IP服务器和其它主要的业务服务器也挂在该子网段内。测试3#端口的错误计数统计值为25%,随即将F683“网络测试仪”移动到3#网段进行监测。结果指示:错误类型为帧校验错误和其它未分类错误(这可以是为无帧头结构的、且非碰撞类型的自由帧、离散帧等),比例分别为27%和11%,其中正常数据包流量为3%。27%的错误统计值与交换机提示的错误统计值基本一致,但还有11%的错误交换机和路由器等不能识别,需要进行定位。断开路由器,错误指标略有降低。这表明故障确实是在该子网,与WAN链路基本无关。由于此子网段全部由集线器堆叠而成(8×16Port),故进一步观察网络测试仪F683指示的全部错误定位数据。仪器提示97个工作站和5个服务器均发出类型为FCS帧校验错误的数据包,数量不等。
由于全部工作站均发出FCS帧校验错误帧,所以不认为是所有的工作站网卡都有问题(这种可能性微乎其微),而故障原因很可能是电缆故障(全部电缆打线有误或采用了假冒伪劣电缆)和干扰窜入,如信号干扰、接地干扰、电源干扰、辐射干扰等等(包含在未分类错误类型中)。网管人员认为,由于电缆系统在竣工验收时全部都采用ISO11801标准进行过认证测试,测试工作是网管中心自己承担的,所以应该没有问题。

为快速定位故障,采用通常的“二分法”隔离网段:先将一半的集线器断电,故障依旧,再次将其中一半集线器(即总量的四分之一)断电,故障消失。恢复供电,逐个拔掉该四分之一集线器(两个集线器)上的工作站电缆插头,当拔下6号集线器的7#端口连接的工作站电缆插头时,网络万用表上的错误指示全部消失!
网管人员断定,故障为该工作站之网卡的可能性不大,因为所有的网卡昨天为了迎接检查验收都进行过相邻三组网卡的两两互换试验和三台相邻整机的两两换位试验(该中心没有配备其它的网络测试工具,只好采用这种常用的但经常是有效的所谓“笨办法”)。用网络测试仪对此故障工作站的网卡进行测试,结果其端口的物理参数和工作协议都正常。由此可以大体断定故障出在该工作站的其它部位,且基本是干扰类型的错误(属于未分类帧错误类型),不排除线缆引入过量噪声的可能。拔下网卡一侧的电缆插头,故障消失,说明故障不是由电缆噪声引起。靠近该工作站可以闻到一股虽不是十分明显,但却比其它工作站都强烈的电器“烧焦”味(不过,还远未到能看见机器冒烟的地步)。贴近机器可以听到开关电源中发出的明显的“咝咝”响声,脱下外衣罩住头,在遮光条件下观察工作站的开关电源内部,漆黑的背景中明显可以看见几条放电打火线。测试工作站与服务器的联络情况,可以看到大量的重发帧和无效帧。更换备用的开关电源,故障排除。

原因分析
故障原因比较简单,是由单台工作站开关电源故障产生的放电干扰信号窜到网卡输出端口后进入网络所造成。该干扰信号进入网络后占用大量的网络带宽,破坏其它工作站的数据包(即表现为“患者”众多的FCS帧校验错误类型的数据包,其比例随各个工作站实际的正常流量而定);同时该干扰信号还干扰服务器、路由器的工作(重发帧、无效帧等),使得地区中心的网管机屏幕上经常有报警状态提示。由于网络总流量为41%左右(低于40%的平均流量时用户基本不会感到网络变慢),有效流量只有3%,所以县级市子网上的用户虽然自己发出的数据包有很多被破坏而需要重发,同时接收到的数据包有很多已被破坏而需要重收,但是基本上不会感到网络速度有明显的变慢!!

网管系统通常只能发现约30%~40%的网络故障(这取决与被管理设备支持网管的能力和分析、记录网络异常流量的能力)。当有故障报警后,多数情况下需要进一步迅速确定具体的故障位置和故障属性。本次故障不能精确定位并立即排除的原因是多方面的。

其一,县级网由于没有网络维护工具,仅靠网络维护人员的经验和从互联网上下载的某些软件来监测自己的网络,这是直接导致了此次故障长时间无法解决的原因。现阶段,按不同的网络维护规模和级别为相应技术水平的网管人员及运行维护人员配置合适的工具到目前为止一直是让网络规划人员、计划单位和网络维护人员自己都搞不清的事情。

其二,本次故障本来原因比较简单,但因维护体制方面存在的问题从而导致在故障查找过程中不能密切配合和协作,使得问题长期未能解决。其实,如何比较全面、有效、快速和低成本地实施网络的管理和维护已经有许多成熟的方案和做法。建议网管人员和运行维护人员在忙于快速建网、不断跟踪网络新技术和接触新设备的同时也要抽出部分精力来研究有关网络维护的理论、方法和成熟的方案,力争达到事半功倍的效果。比如,进行完整的网络文档备案工作、定期测试、网络基准测试、性能监测、体能测试、通道测试、协议监测、流量分析等工作就一直是一些大型网络成功地防止严重事故发生的有效而简便的手段。

更多
关闭窗口 打印 
网站首页    -    联系我们    -   收藏本站    -    网站地图                                                               客户服务热线:0571-85023000
本网站所有网页信息已申请知识产权和著作权保护,版权归四海光纤公司所有,未经授权禁止任何人复制或镜像,违者必究。
公司主营:杭州光纤光缆视频会议系统,是专业的通信网络工程、视频会议系统建设专家

中华人民共和国备案号:浙ICP备10018243号