当前位置:首页 > 技术与方案 > 网络管理相关

网络物理安全辨误(二)

(2012-09-05 06:50:17)

1作者:尹岗 
物理介质的质量在很大程度上决定了网络的基础性能。但网络传输信号的质量和信号传输的状态有时与介质的性能和质量关系不大,而与型号本身的质量有关。我们可能不会经常定期地对交换机端口发出的数字基带信号的质量进行监测,比如,定期地看一看信号的强度、抖动、极性、前后延波形等是否符合要求。事实上,一个工作了三年的交换机,可能有甚至高达5%-10%的端口存在老化问题,传输的信号质量大打折扣。只有当用户反映明显地感觉速度变得缓慢时,维护人员才会去试着处理,而通常的态度和处理结果则是—置之不理。其实,只要坚持定期对网络设备及网络的性能做一些简单的监测或轮测,大多数这类问题都可以不出现或是被消灭在萌芽状态。
下面这个案例正是这方面的问题。

引子:从庆贺现场发出的求助

网络建好了,对于系统集成商来说,设备的安装调试一旦完成,一般都要安排一个小小的庆贺仪式。而对于一家承担过十几项大型工程的系统集成商来说,面对一个400个用户的中小型网络,设备调试的工作应该不是难事。但是,直接从庆贺仪式的准备现场赶来求援的系统集成商我们还是第一次遇到。
某著名系统集成商,专门负责政府网工程建设的项目经理罗先生十万火急地请求紧急支援。原因是下午的“竣工验收”仪式和随后的晚宴时间已经定好,本工程又是他们公司首次采用六类线电缆系统的样板工程,也是市政府今年安排信息化工程和上网工程的示范单位。邀请的十几个重要客人包括市政府领导在内一行人今天下午均会相继“出场”,别提多光彩了。这对公司的品牌和形象工程有多大帮助自不必言,对今后公司的发展和利润增长的意义十分重大。
若按原工程计划的进度安排,网络的调试工作将用三天时间进行,并应该于前天上午完工。而直到今天上午10:00为止,调试工作遇到拦路虎,还没有通过初级的系统调试。如果今天下午15:00以前不能调试成功,那么“洋相”就可能会出大了,请来参观和观摩的客人自不必说,单就企业的声誉来讲,恐怕无可避免地将受到严重影响,且进一步的业务深入也将会受到遭受重创。

案情:奇怪的网络故障

罗先生反映的网络故障表现其实很简单:基本上所有的网络成员访问网络资源的速度都非常缓慢,在客户机上从服务器拷贝一个20Mbytes的文件竟然需要5分钟。但从网络中的任何位置Ping测试与服务器联通性,表现都很好,响应均在2ms以内。
该交换机网络的公共部分是一台核心交换机Cisco 6509和三台服务器,服务器直接与核心交换机相连,其它工作站则通过下属的工作组交换机和集线器等与之相连。软件安装工程师因此怀疑交换机有问题,并且推断如果是交换机的问题,那么一定是核心交换机出了问题——因为所有的用户都存在同样的共性问题,而三台服务器都出问题的可能性几乎为零,所以作为用户访问服务器共同通道的核心交换机是最大的嫌疑。经过对核心交换机配置的仔细检查后,确定一切都很正常,如此看来核心交换机应该没有什么问题。但转念一想,仅看交换机的配置是不够的,这并不能表明交换机的实际工作性能和工作状态。调试人员试着在核心交换机上接上一台工作站,然后从三台服务器上分别拷贝一个20Mbytes的文件,结果耗用的时间从4分钟到11分钟不等。看样子不是核心交换机有问题就是服务器软件或者软件安装有问题。
为了验证是否是交换机的问题,安装工程师选择了一台工作组交换机(二级交换机)上的相邻的两台工作站做试验,从一台工作站上拷贝一个20Mbytes左右大小的文件做对比,结果显示同样也需要5分多钟的时间!难道工作组交换机也有相同的问题——按概率来讲这似乎是不大可能的,应该是其它的某种原因造成的。比如,也有可能是操作系统和系统软件平台的安装有问题,因为此次使用得软件是套装软件,有可能会出现服务器和客户机软件不合格的问题。所以,软件工程师提出对服务器的平台和应用软件重新进行安装,同时对客户机的软件也同时进行重新安装,使用的软件版本选用另一个序列号的产品,以彻底解决系统上层协议软件的问题。罗先生当时想虽然重新安装会花费相当多的时间,但离验收庆典活动还有相当多的时间“储备”,所以接受了这一建议。
后来的发生的事情就更稀奇古怪、不可捉摸了——调试人员已经将所有用户重新安装过两遍,但问题依然存在。凭借以往安装系统的丰富经验,软件工程师们十分有把握地保证操作系统和软件平台安装设置绝对没有问题。那么,还有一种最大的可能原因就是病毒或黑客软件在捣乱!经过一通紧张的忙碌,查杀病毒的努力也没有取得任何结果。
为了了解数据包在网络中传输的对话情况,罗先生又从朋友那里借了一台协议分析仪对收发的数据包进行监测,结果显示单个数据包的收发反应时间基本正常,只是包的转发时间间隔很长,重发包很多,协议分析仪提示可能是服务器或网络有问题,但无法进一步确定是哪个环节的问题。他们试着用协议分析仪在网络设备的不同位置通过镜像口观察数据包的传输情况,结果发现测试结果差异非常大。不是看不到想要看的数据包,就是观察到太多的无用的数据包。由此推断,问题应该还是出在交换机上。联想到这次安装配置交换机的工程师三周前突然辞职离开公司另谋他就,因此更加怀疑是交换机安装配置上可能被人做了手脚。
罗先生虽然私下对辞职的网络工程师十分了解,相信他不会做这种让人不耻的“小事情”,但还是决定请另外一家公司的网络工程师帮忙解决问题。重新检查的结果证明,交换机的安装设置没有问题。又将交换机恢复到出厂默认配置后再按原工程设计重新配置,结果,故障现象依旧。软件工程师建议试着换换交换机,说不定会有效果。当时恰好仓库里还有几台刚到货为另一家用户准备的同型号的交换机,故试着更换了这台同型号的核心交换机和其中一台工作组交换机。但是,奇迹依然没有出现,故障仍然“涛声依旧”。又从另一家主代理商那里借来一台服务器作替换试验也无效。这下罗先生可是真有点急了,由于时间迫在眉睫,罗先生甚至隐隐地体验到一种末日将至的感觉。

查案:逐步排除可疑因素

我们立即随罗先生赶往“事故现场”。首先从一台工作站上Ping服务器和任意选定的位于网内的其它5台的工作站,响应时间均小于1ms,说明联通性尚可。调试人员怀疑是交换机问题的可能性是存在的,但我们认为证据不足。这是因为从邻近的工作站直接拷贝文件也很慢,而且这些交换机都做过替换试验。无论是通过核心交换机的数据包,还是只通过工作组交换机的数据包,他们的公共部位是新的布线系统、操作系统和系统软件平台、关键网络设备本身的故障或错误、网卡驱动程序错误等等。
用网络测试仪实施流量贯通测试,选择从任意一台工作站到服务器为一条通道,再任意选择该工作站到其它5台工作站直接的通道,共6条测试通道作试验样本。从测试仪上分别发送正常的IP包流量到上述6个对象,流量选定为健康指标的上限值,即40%。用福禄克公司的网络一点通在被测试的站点模拟网络设备配合接收流量,结果发现收到的流量都不足1%,且广播包占20%以上。
缩短流量贯通路径,直接向邻近的工作站发送流量,结果收到的流量有两种明显的结果。一是流量大量增加,达28%左右,其路径是通过集线器连接的通道,属于正常表现。另一种结果同前面观察到的现象一致,只收到约1%左右有用流量帧。观察收到的28%帧流量的结构,其中92%~98%为碰撞帧,少量为FCS帧。由于其中三台邻近的工作站是用集线器连接的,发生如此高的碰撞最大的可能性是电缆系统的问题。
我们随即测试该六类链路,并任意抽查了其它5条六类线链路,测试全部合格。说明链路的物理联通性是合格的。但因为集线器、交换机等的物理接口是超五类的元件,六类线链路从理论上和厂家的承诺上讲应该与其能兼容。观察用于发送40%流量的网络测试仪自身的流量记录,其监测到的碰撞率与上面的结果一致,也是92%~98%左右。这提示该六类线链路可能与10/100M的网络设备端口的阻抗不匹配。如果真是这样的话,那么问题牵涉的范围就比较广泛而且严重了。这是因为这涉及到六类链路与超五类器件的通用性和向下兼容性的问题,而这是六类线电缆厂家承诺和保证的优越性之一:采用五类和超五类设备的网络可以与六类链路任意对接,如果今后需要使用更快速的网络设备,则只要更换支持六类链路的网络设备和设备条线就可以达到超高速的应用要求。
从网络的表现来看,因为这是首次安装的六类样板链路,并且是在六类链路上挂接超五类端口的网络设备,而网络故障的表现范围广、现象比较一致:出现大面积内的速度缓慢现象,且每个个体的表现都是基本相同的。协议分析仪解包显示包交换正常,提示有可能是网络的问题,但不能证明是网络操作系统和软件平台的问题。所以,安装了影响全局性能的那部分设备就只有新的六类线布线系统,这也是调试人员重点怀疑的网络部位。但因为安装的六类链路经过测试是合格的,我们当然不能由此就认定是网络设备端口的问题或是六类线链路与端口不匹配。为了慎重起见,我们用两条超五类线缆连接两台相邻的工作站,再次试验拷贝文件,结果故障依旧。这说明六类线系统不是真正的故障原因。
剩下的问题就是需要确认端口匹配性、工作站工作协议、配置、驱动程序、物理参数是否与网络匹配了。方法很简单,将“在线型”网络万用表串入工作站和网络端口(我们分别选择了一个集线器和一台交换机的端口)。结果显示如下:其中一台工作站的工作速度为100M,端口设置为全双工,而对应的集线器设置为100M,端口设置为半双工;另一台工作站工作速度为100M,端口设置为半双工,对应的交换机端口设置为半双工。罗先生告知,网络中的网卡使用了三家公司的产品,都是非常知名的厂商。A公司的产品占90%,其余则为B公司的产品,另外,服务器使用的是服务器厂商C公司自己OEM来的网卡。
我们抽测了A公司的10张网卡,用网络万用表测试,显示设置全部是全双工;而抽测的5张B公司的网卡则全部是半双工设置。我们选择相邻的两台安装了B公司网卡的工作站拷贝文件,结果发现拷贝速度非常快,约3秒钟。
接下来我们把两台安装有A公司网卡的相邻工作站用A公司随配的软件将网卡强制改为半双工状态,奇迹终于出现:20Mbytes文件拷贝时间也是3秒钟。
选择被试工作站到服务器的通道,它们通过一台集线器,两台交换机后到达服务器。依次测试链路中的速度和工作状态,结果发现服务器网卡也是全双工设置状态。更改后试验从服务器上拷贝一个100Mbytes的文件,耗时约13秒。说明性能比较优良。

结果:网卡状态是元凶

故障的原因已经很清楚,该系统集成商选用了三家公司的网卡,而其中的A公司网卡被全部被默认设置为全双工状态(原因不详,但可以调整),服务器也被偶然地设置为全双工状态。但系统中的交换机、集线器等都被强行设置工作在半双工状态。所以,凡事先安装有A公司网卡的工作站工作速度都很慢。其它安装了B公司网卡的工作站,虽然自身设置是正确的,但由于数量少,只站不足10%,加之服务器也被设置为全双工状态,所以调试时很可能与A公司或C公司的网卡进行数据对接,这样速度就无法正常。如果偶然地与同类B公司网卡进行数据交换,则调试人员应该会有机会发现虽然所有的工作站与服务器连接速度慢,但并不是所有的工作站与工作站之间直接联络时的速度都会慢(不幸的是,他们只抽查了所有400条链路中的6条链路,命中概率偏低)。不过,因为A工商产品数量居多,服务器设置又不正常,所以这样的机会不多。
网卡的协议设置和工作设置会直接影响工作站的速度。一般来讲,工作站的协议设置多数时候不容易出错,但是否与网络的工作协议一致则有时会弄混。比如,工作站使用SMTP协议收发邮件,而网络的邮件服务器使用的是POP协议收发邮件,则工作站将无法进行邮件收发操作。比较容易出错的是10/100M设置状态、全双工半双工设置状态、链路数字脉冲极性选择等,这些方面的错误由于网络维护人员和安装调试人员有意无意的疏忽,加上没有合适的检测方法和工具,往往会给系统集成商造成很大的麻烦,而故障原因却是如此地简单。很多时候调试人员使用网卡和交换机的自适应功能,这是比较好的原始状态,缺点是个别端口可能适应不良或不能按需要达到适应的结果,所以,多次遇到这种情况的网络工程师为了提高验收通过率,常会将端口设置先配置为半双工状态,这样的链路对近端串扰NEXT参数较大的影响反应要“平淡”得多。比如,用户需要自适应状态最终为100M全双工或10M全双工,但自适应的结果可能是100M半双工或10M全双工状态。因此部分用户使用厂商提供的软件进行人工设置,这样可以达到需要的状态。缺点是人工强行设置的状态不一定与网络实际能达到的状态一致,且经常的情况是无法对设置的结果进行验证或检测。本例故障应该就属于这一类。
随着网络状态和元器件参数的改变,原先的设置有可能需要更改,但如果维护人员没有相关的档案,则难于检测实际的连接状态。所以在网络定期维护方案中,一般建议一年左右对端口做一次定期检查,除了检查端口工作状态匹配性外,还顺便检查协议匹配、端口老化程度等。
本故障的诊断走了一些弯路。因为是新安装的六类线系统,使得故障诊断时有意地倾向于首先怀疑是否是此新系统与100M超五类系统(实际上,超五类系统是为1000M以太网准备的)不匹配方面的问题。如果首先在相邻工作站与交换机或集线器之间检查链路工作状态的检查,则完全可以在10分钟内找到问题。本故障实际耗时约100分钟,赶在13:00以前收工。
罗先生紧急动员所有调试人员立即检查并用软件调整全部的A公司网卡,只用了不到一个小时就将全部设置改为了半双工状态。
15:00正式的验收仪式顺利开始,验收工作进行得非常顺利,在此不予赘述。

尹工提醒

网络维护人员和部分安装调试人员往往错误地认为网络的维护和管理就是去管理服务器、工作平台、工作站、打印机等其它网上设备,这是片面和有害的。其实网络维护人员真正需要下功夫维护和管理的地方是网络设备而不是网上设备。
网络设备通常是指路由器、网关、桥、交换机、集线器、广域传输设备、电缆光缆等等。这些是被许多网络维护人员和部分安装调试人员忽视的地方。有的则是因所学专业的限制有意无意地忽视之,特别是对光电参数的验证和测试更是如此。有的则是设置参数配置不合理,比如交换机和路由器的工作参数配置不合理等等。
 

更多
关闭窗口 打印 
网站首页    -    联系我们    -   收藏本站    -    网站地图                                                               客户服务热线:0571-85023000
本网站所有网页信息已申请知识产权和著作权保护,版权归四海光纤公司所有,未经授权禁止任何人复制或镜像,违者必究。
公司主营:杭州光纤光缆视频会议系统,是专业的通信网络工程、视频会议系统建设专家

中华人民共和国备案号:浙ICP备10018243号