H3C认证 百分网手机站

h3c交换机典型故障归类和排除方法

时间:2017-06-12 16:53:30 H3C认证 我要投稿

h3c交换机典型故障归类和排除方法

  一台交换机设备无论性能多么好,都会存在潜在的故障问题,就像人一样,无论多么健康,也总会出现有一些小毛病,能够做到防范于未然当然是好事,但是对于这个作为网络重臣的交换机来说,日夜“操劳”不断,偶尔出现问题也是在所难免的,所以当故障出现了,就要正视故障,及时地解决问题。

  尽管交换机的故障多种多样,但是问题的根源就如:“天下武功出少林”一样,万变不离其宗,殊途同归,而且经常出现的也就这么几种,下面为大家归纳了几类典型的故障及其解决方法,读者也大可以触类旁通,举一反三,希望对交换机的日常故障处理工作有所帮助。

  1.电源故障

  故障现象:开启交换机后,交换机没有正常运作,而且发现面板上的POWER指示灯并没有亮,而且风扇也不转动。

  故障原因:这种故障通常是由于外部供电环境的不稳定,或者是电源线路老化,又或者是由于遭受雷击等而导致电源损坏或者风扇停止,从而导致交换机不能正常工作。还有可能是由于电源缘故而导致交换机机内的其他部件坏的损坏。

  解决方法:这类问题很容易发现也很容易解决,当发生这种故障时,首先检查电源系统,看看供电插座有没有电流,电压是否正常。要是供电正常的话,那就要检查电源线是否有所损坏,有没有松动等,若电源线损坏的话就更换一条,松动了的话就重新插好。

  如果问题还没有解决,那问题就应该落在交换机的电源或者是机内的其他部件损坏了。预防方法也比较简单,首先要做的就是保证外部供电环境的稳定,这可以通过引入独立的电力线来提供独立的电源,并添加稳压器来避免瞬间高压或低压象。

  可能的话,建议最好配置UPS系统(不间断电源)。还有的就是采取必要的避雷措施,以防雷电对交换机造成的损害。

  2.电路板故障

  故障现象:有一个电脑室经常出现一部分电脑不能访问服务器的现象。一开始以为是网络布线不规范和网卡设置被学生修改了,所以机房管理员经常对网线进行测试和重新设置系统的网络配置。但是经过反复维修,这些电脑的网络连接还是时好时坏,到最后,这一组的电脑全部都不能上网了,同时也发现连接这组电脑的交换机的所有连接指示灯都在不规则地乱闪。

  故障原因:交换机一般是由主电路板和供电电路板组成,造成这种故障一般都是这两个部分出现了问题。而造成电路板不能正常工作的主要因素有:电路板上的元器件受损或基板不良,硬件工注不合适和硬件更新后以及由于兼容问题而造成的电路板块类型不合适等。

  解决方法:首先确定究竟是主电路板还是供电电路板出现问题,先从电源部分开始检查,用万能表在去掉主电路板负载的情况下通电测量,看测量出的指标是否正常,若不正常,则换用一个AT电源,输入电源到主电路板,交换机前面板的指示灯恢复正常的亮度和颜色,而所连接这台交换机的电脑正常互访,就说明是供电电路板出现了问题。若以上操作无效的话,问题就应该是出现在主电路板上了。

  3.端口故障

  故障现象:整个网络的运作正常,但个别的机器不能正常通信。

  故障原因:这是交换机故障中最常见的,如果光纤插头或RJ-45端口脏了,可能导致端口污染而不能正常通信。还有,平常很多人都喜欢带电插拔接头,在理论上说似乎并没有不妥,但实际上经常这样的话就无意中增加了端口的故障发生率;在搬运时的不小心,也可能导致端口物理损坏;购买的水晶头尺寸偏大,插入交换机时,也很容易破坏端口。此外,如果接在端口上的双绞线有一段暴露在室外,万一这根电缆被雷电击中,就会导致所连交换机端口被击坏。

  解决方法:一般情况下,端口故障是个别的端口损坏,先检查出现问题的计算机,在排除了端口所连计算机的故障后,可以通过更换所连端口,来判断其是否端口问题,若更换端口后问题能解决的话,再进一步判断是端口的何种缘故。关闭电源后,用酒精棉球清洗端口,如果端口确实被损坏,那就只能更换端口了。此外,无论是光纤端口还是双绞线的RJ-45端口,在插拔接头时一定要小心,建议插拔时最好不要带电操作。

  4.模块故障

  故障现象:交换机是由很多模块组成,如堆叠模块、管理模块(即控制模块)、扩展模块等,这些模块都有不同的外部接口,若发生故障都比较容易发现,有些可以直接查看得出,有的可以通过模块上的指示灯来辨别故障。

  故障原因:交换机是的多种模块,如果插拔模块时不小心,或者是搬运交换机时模块受到受到碰撞,都可能导致此类故障的发生。还可能是由于电源不稳定等情况造成的。

  解决方法:这些模块发生故障的机率很小,不过一旦出现问题,就会遭受巨大的经济损失,所以在保持电源稳定的前提下,拔插模块或搬运交换机时要加倍小心。在排除此类故障时,首先确保交换机及模块的电源常供应,然后检查各个模块是否插在正确的位置上,最后检查连接模块的线缆是否正常。而解决此类故障的方法,就只能够与相关供应商联系争取更换了。

  5.背板故障:

  故障现象:外部供电环境正常,但交换机的各个内部模块都不能正常工作。

  故障原因:因为交换机的各个模块都是接插在背板上的,如果交换机在潮湿的环境下工作,电路板受潮发生短路,又或者是元器件因高温、雷击等而受损,这些情况都会使电路板发生故障,而不能正常工作。

  解决方法:如果外部电源正常供电,但交换机的各个内部模块都不能正常工作,那就可能是背板坏了,这种故障的解决方法无他,只有一个,那就是更换背板,因为修复补不了的。为了有效防止这种故障的发生,最重要的是为交换机提供一个符合厂商所提供的标准指标的工作环境。

  6.配置不当:

  故障现象:将某工作站连接到交换机上的几个端口后,无法Ping通局域网内其它电脑,但桌面上“本地连接”图标仍然显示网络连通。

  故障原因:由于各种交换机配置都不一样,管理员在配置交换机时会很容易出现配置错误。

  解决方法:先检查这些被Ping的电脑是否安装有防火墙,三层交换机可以设置VLAN(虚拟局域网),不同VLAN内的工作站在没设置路由的情况下无法Ping通,因此要修改VLAN的设置,使它们在一个VLAN中,或设置路由使VLAN之间可以通讯。这类故障有时很难发现,需要一定的经验积累,在配置之前,最好先阅读说明书。如果不能确保用户的配置有问题,请先恢复出厂默认配置,然后再一步一步地配置。

  7.系统数据错误

  故障现象:交换机出现满载、丢包、错包等情况,甚至会造成系统全方位的故障,影响局域网的通信。

  故障原因:这类故障的起因跟常见的Windows、Linux一样,由于当时设计的原因,存在着一些漏洞,在一定的条件下,这些漏洞将会发生系统数据错误的故障。

  解决方法:交换机系统提供了诸如Web、TFTP等方式来下载并更新系统,所以有关管理人员要多关注设备厂商的网站,如果推出新的系统或新的补丁,应当及时更新,以防止错误的发生。

  总结:

  除了以上所列的几点之外,连接电缆和配线架跳线的问题(如果这些连接电缆内的缆芯或跳线发生了短路、断路或虚接,就会形成通信系统的故障)也时有发生,此外,局数据错误也会对整个交换局造成影响,而用户数据被错误设置,则会对某个用户产生影响,还有的就是交换机软件方面的问题,譬如像程序BUG——软件程序设计存在着缺陷……这些也是应当注意的问题。

  总之,一台交换机设备的故障问题难以一一列举,可行之道当是做好日常防护工作,做好相关的日志记录,并为交换机提供一个合适的工作环境,结合相关的经验,把故障控制在最小的范围内。

  交换机在网络中的故障诊断

  在一个交换网络里,您如何确定从哪里开始动手查找问题?想深入“透视”一个交换网络是非常困难的。首先,在2层交换的时候还是桥接转发方式,但到了3层交换却有了更高级的特性和转发规则,例如VLAN。

  到了4层交换,就更加复杂了,出现了更高级的转发和负载均衡技术,故障诊断故障诊断和解决就需要更多的交换机配置知识。

  在安装完一台交换机后,每个交换机的半双工端口就构成了一个冲突域。如果该端口连接了一个集线器,集线器下面连接若干站点,那么冲突域会扩大。但随着交换产品的价格下跌,现在大多数新建的网络每个交换端口都只连接一个站点。因此,在半双工连接情况下,冲突域仅针对一个单独的电缆链路。

  交换机通常是一个独立广播域的一部分,包括串连或者并连的任意数目的其他交换机。如果使用了OSI模型3层的功能,就可以创建多广播域,广播域的数目与VLAN数目相等。最极限的情况,如果交换机功能允许,每个端口可以配置为一个独立的广播域。可以把这种情况描述为路由到桌面。为每个端口创建一个独立的广播域后,故障诊断就会严格受限。但是如果我们把每个端口设置为一个单独的广播域,交换机在转发流量的时候,每个端口都需要路由服务,这会占用交换机CPU的有限资源。在网络环境中,对每个单独的端口进行路由请求和应答是非常困难的,我们应该避免这样的配置。不幸的是,这种情况在实际情况中非常常见,网络中经常发现服务器全部在一个子网或者广播域中,所有的客户在另外的子网或者广播域中。在这种情况下,所有的请求都必须路由。如果维护行为限制在一个单独的服务器群里,那么考虑把服务器放进单独的VLAN里。然后把使用这台服务器的用户放到同一个VLAN。这样就可以使用2层交换的桥接方式来交换流量,只有很少的请求需要路由。如果服务器支撑多于一个用户区,可以在服务器上多装一块网卡来实现到用户的2层交换连接。

  对交换机进行故障诊断的5种技术

  可以采取5种基本方式来透视交换机。每一种方法都不同,都有积极或者消极的一面。类似在网络中遇到的其他问题一样,没有一个最好的答案。最合适的方案往往取决于您手中可以利用到的资源(什么工具可以使用或者以前安装过什么工具),而且使用这些技术有可能造成服务中断。

  即使把这些方式组合起来,也不能监测到所连接的网络,在交换的环境里面,也不像集线器那样方便监测。我们几乎不可能看到通过一个交换机的全部流量。大多数的故障诊断会假设流量会在站点和所连接的服务器之间或经过故障诊断交换机uplink口通过。而实际上如果2台主机直接传输信息的话,就不会使用交换机的uplink口或者任何其他的端口来交换流量。除非你知道具体用到哪个端口,否则是监测不到的。

  举个例子,如图1,一台服务器接入一台交换机。在反映有问题的用户中,一部分是直接与这台交换机相连,另外的一部分用户是由这台交换机的uplink口从其他路由器或者交换机连接上来的。故障报告是访问服务器“慢”,这样的故障报告对技术支持工程师来说基本上没有任何价值。

  方法1:通过TELNET或者串行口接入服务器

  高级的网络技术支持工程师或其他知道交换机密码的人在进行故障诊断时可以选择通过TELENET或者交换机的串口登陆,来检查交换机的配置.

  交换机配置可以通过上面提到的2种方法查看,虽然问题不一定是配置引起的。不管问题是操作系统有BUG还是配置不完善,都不能从配置列表中轻易的查看出。配置信息在定位交换机是否像预期的那样运行上比较有用,但针对故障诊断就不是了。为了验证交换机的配置,往往需要使用多种的交换机故障诊断方法配合。

  很多交换机都带有实时的故障诊断工具,因为交换机生产厂家和型号的不同,这些故障解决工具的特征也各不相同。但是要使用好这些工具,必须依靠一定的理论知识和实际经验。

  方法2:连接到一个空闲端口

  最简单的故障诊断方法是在交换机的空闲端口接入一个监测工具,例如协议分析仪。

  把监测工具接入交换机的一个空闲端口,不用中断服务就可以查看所属广播域。该监测工具与广播域里的其他站点一样有相同的权限。

  不幸的是,交换机(做为一个多端口的桥接设备)几乎不转发流量到监测端口。因为桥接设备就是这样设计的,流量直转发到所属的目的端口,不会去其他的端口。协议分析仪因此几乎监测不到流量。

  交换机在源端口和目的端口之间转发流量。非常少的流量会转到其他端口。站点和服务器之间可能每秒钟会转发几千个帧,但是监测端口每分钟只能看到几个帧。

  转发到监测端口的流量几乎全部都是广播,包含一些零星的目的地址不明的帧。这些零星的帧是由于路由转发表老化的结果,经常是目的端口不明的帧。一些经验不够的技术人员看到这么高的广播(接近100%),却没有注意到端口利用率很低,就误判网络出现了广播风暴,其实不是。

  这样查看交换网络几乎没有用,因为监测工具必须获取流量。获得的流量或者对广播域的查询对网络搜索和发现其他类型问题是有很有帮助的,但对解决用户连接慢的问题并没有多大的'帮助。

  对大多数交换机来说,都有一个更好的选择,可以把需要监测的端口流量备份到一个专门的空闲口。这种技术通常称为端口镜像。

  大多数交换机厂家都提供备份或镜像流量的功能,可以把监测工具接入交换机一个专门配置过的端口。老的交换机必须指定一个专门的监测口做为镜像口,但现在大多数新的交换机可以指定任何一个端口做为镜像口

  虽然交换机厂家实现镜像的方式各不相同,但是有一些基本相同的监测选项。值得注意的是,几乎在所有的情况下,交换机在转发流量到镜像口的时候,同时把错误都过滤掉了。对于故障诊断来说,这意味着同时过滤掉了有用的信息。

  此外,实际操作当中需要我们通过控制口(交换机的RS232端口),或者Telnet进程来配置镜像。这意味着除了监测工具之外,我们通常还需要带一台电脑或者终端来对交换机进行配置。

  镜像端口经常只是一个“监听”端口,不过很多交换机厂家允许把该端口配置成全双工的。配置了镜像口,监测工具就可以查看报告连接慢的主机和服务器之间的实际流量的备份。镜像口可以只监测交换机的任意一个端口,甚至可以是Uplink口,也可以同时监测交换机的多个端口。但是同时监测的端口很多的话,过高的流量就有可能会超过镜像口的接收能力。

  监测端口的输出能力是一个很重要的问题。镜像口可以收,也可以发。在配置的时候,经常关掉了镜像口发的功能。但不管有没有关掉镜像口发的功能(不管镜像口是全双工或者不是),镜像口的接收能力都是有限制的。如果被监测的全双工端口的速率和镜像口是一样的话,交换机在转发流量的时候很容易就会丢包,但是交换机不会通知您。

  假设您在监测一个以100M全双工速率连接到交换机的服务器的话,那么服务器在全双工工作的时候,服务器的收发速率都是100M,那么总共就有了200M。然而交换机的100M镜像口最多只能接收100M的流量。所以任何交换机的端口(全双工的)利用率超过50%的时候,镜像口接收到的包就会有丢失。

  如果把多个端口镜像到一个端口,丢包的问题就会更加的严重。因为大多数交换机都工作在低容量,这个问题并不会被立刻注意到。大多数用户连接的平均利用率都很低。只是偶尔会有流量的突发。

  如果选择一个高速的镜像口,就可以减少丢包的问题。例如把图6中的100M镜像口换成1000M,那么就可以很容易的接收200M的监测流量。