本文目录导读:
传输故障排除思路全解析
图片来源于网络,如有侵权联系删除
故障定位的前期准备
1、资料收集
- 在开始排查传输故障之前,要收集与传输系统相关的详细资料,这包括网络拓扑图,它能清晰地展示各个节点之间的连接关系,例如在一个光纤传输网络中,拓扑图会标明各个光交箱、中继站以及终端设备的连接顺序和链路走向。
- 设备配置文档也至关重要,其中涵盖了设备的端口配置、协议参数、速率设置等信息,对于一台路由器,配置文档会显示其IP地址分配、路由协议(如OSPF或BGP)的配置参数等。
- 还要了解业务流量类型和走向,是语音、数据还是视频业务,以及这些业务从源端到目的端是如何经过传输网络中的各个设备和链路的。
2、工具准备
- 常用的网络测试工具必不可少,光功率计用于测量光纤链路中的光功率,判断光信号是否在正常范围内,在一个城域网的光纤传输项目中,如果某段链路出现传输问题,光功率计可以快速检测出是光功率衰减过大导致的故障。
- 网线测试仪可以检查以太网网线的连通性和线序是否正确,对于基于铜缆传输的以太网接入部分,网线测试仪能够及时发现网线是否存在短路、断路或者线序错误(如T568A和T568B线序混淆)等问题。
- 协议分析仪能够对网络中的协议进行深度分析,捕捉和解析数据包,查看协议的交互过程是否正常,当出现网络传输性能问题,如丢包、延迟过大时,协议分析仪可以帮助确定是哪个协议环节出现了故障,例如在一个基于TCP/IP协议的网络中,通过协议分析仪可以查看TCP连接的建立、数据传输和连接关闭过程中的异常情况。
故障定位的基本原则
1、先外部后内部
- 当遇到传输故障时,首先检查外部环境因素,对于室外的传输设备,检查是否存在自然灾害(如雷击、洪水等)对设备或线路造成损坏,如果是在一个山区的微波传输网络中,暴雨可能导致山体滑坡损坏微波天线的支架或者使馈线断裂。
- 查看设备的供电情况,是否存在停电、电源插头松动或者电源模块故障等问题,在一个数据中心的传输机房中,若某个传输设备突然停止工作,首先要检查其供电是否正常,因为不稳定的供电可能导致设备重启或者工作异常。
- 检查物理连接是否牢固,如光纤的接头是否松动、网线的水晶头是否插好等,在企业办公网络中,员工反映网络不通,很多时候是因为网线被不小心碰掉或者光纤跳线在整理线缆时被挪动导致连接松动。
2、先单站后单板
- 在确定外部环境没有问题后,开始检查单站设备的整体运行状态,查看设备的指示灯状态,不同颜色和闪烁模式的指示灯通常代表不同的设备状态,在一台SDH传输设备上,绿色常亮的电源指示灯表示电源正常,红色闪烁的告警指示灯表示设备存在故障告警。
图片来源于网络,如有侵权联系删除
- 检查设备的日志信息,设备日志会记录设备运行过程中的各种事件,包括正常的操作记录和故障告警信息,通过分析日志,可以了解设备在故障发生前后的状态变化,日志中可能显示某个端口在特定时间出现了大量的错误包,这就为故障定位提供了重要线索。
- 在单站设备整体状态排查无明显问题后,再深入到单板级别的检查,对于一个复杂的传输设备,如波分复用设备,可能由多个功能单板组成,如光转发板、合分波板等,当出现传输质量下降的问题时,需要进一步检查各个单板的性能参数,如光转发板的发射光功率、接收灵敏度等。
3、先线路后支路
- 对于传输网络来说,线路部分是数据传输的主干道,首先检查线路的连通性和性能,对于光纤线路,除了前面提到的光功率测量外,还可以使用OTDR(光时域反射仪)来检测光纤的长度、损耗、断点位置等信息,在长途光纤传输干线中,OTDR可以帮助快速定位光纤的故障点,是光纤断裂还是存在高损耗点。
- 对于微波传输线路,检查微波天线的对准情况、微波频段是否受到干扰等,在城市中的微波传输网络,周围新建设的高楼大厦可能会阻挡微波信号或者产生电磁干扰,影响微波传输线路的正常运行。
- 在确保线路正常后,再检查支路部分,支路是从线路上分出来连接到具体业务终端的部分,在一个综合业务传输网络中,支路可能连接到不同的用户终端设备,如IP电话、视频监控摄像头等,检查支路的端口配置、业务映射关系等是否正确。
故障定位的具体方法
1、告警分析
- 传输设备通常会产生各种告警信息,这些告警是故障定位的重要依据,首先要对告警进行分类,区分是紧急告警、主要告警还是次要告警,在SDH传输设备中,LOS(信号丢失)告警属于紧急告警,这表明光纤链路可能出现了严重的中断问题。
- 查看告警的关联关系,很多时候一个故障会引发多个相关的告警,当光纤链路出现高损耗时,可能会同时产生误码率升高的告警和光功率下降的告警,通过分析这些告警之间的关联关系,可以更准确地定位故障原因。
- 对比历史告警记录,了解故障是首次出现还是反复出现的问题,如果是反复出现的故障,可能是设备存在潜在的硬件故障或者网络配置存在不合理之处,某台传输设备在特定时间段内经常出现CRC校验错误告警,通过对比历史记录发现每次告警都发生在业务流量高峰期,这可能是设备的处理能力在高流量下不足导致的。
2、性能指标分析
- 关注传输网络的性能指标,如误码率、丢包率、延迟、带宽利用率等,误码率是衡量传输质量的重要指标,对于数字传输系统,误码可能会导致数据的错误传输,通过使用误码测试仪,可以在线路的两端进行误码测试,确定误码的具体情况。
- 丢包率对于基于IP协议的网络传输影响很大,如果在一个企业的局域网到广域网的传输过程中丢包率过高,会影响业务的正常运行,如视频会议出现卡顿、文件传输中断等,可以通过在网络中的关键节点进行抓包分析,统计丢包的数量和比例,同时查看是哪些类型的数据包更容易丢失,如UDP数据包还是TCP数据包。
- 延迟和带宽利用率也需要密切关注,在实时性要求较高的业务,如语音通话中,过大的延迟会导致通话双方感觉不流畅,而过高的带宽利用率可能预示着网络即将出现拥塞问题,可以通过网络管理系统实时监控这些性能指标的变化情况,当出现异常时及时进行故障排查。
图片来源于网络,如有侵权联系删除
3、环回测试
- 环回测试是传输故障排查中常用的方法,可以分为硬件环回和软件环回,硬件环回是通过物理连接将设备的发送端和接收端直接连接起来,例如在光纤传输设备中,使用光纤跳线将设备的光发送端口和光接收端口连接,这种方法可以快速判断设备的端口是否正常工作。
- 软件环回是通过设备的软件配置来实现环回功能,在路由器等设备中,可以通过命令行配置将某个接口设置为环回模式,软件环回可以在不改变物理连接的情况下进行故障排查,对于定位设备内部的故障,如接口卡的故障或者协议处理模块的故障非常有效。
- 在进行环回测试时,要注意环回的范围和顺序,一般先从支路端口开始环回,逐步向线路侧扩展,在排查一个以太网传输故障时,先在用户终端设备的以太网接口进行软件环回,如果环回正常,说明用户终端设备内部的网络协议栈和接口驱动基本正常,然后再向网络侧的交换机端口进行环回测试,逐步缩小故障范围。
1、验证
- 在完成故障排除后,需要对业务进行全面的验证,对于数据业务,进行数据的传输测试,如从源端向目的端发送大文件,检查文件传输的速度、完整性等是否恢复正常,如果是视频业务,观看视频的播放质量,包括画面的清晰度、流畅度,是否还存在卡顿或者马赛克现象。
- 检查网络的性能指标是否恢复到正常范围,再次测量误码率、丢包率、延迟等性能指标,确保这些指标符合业务运行的要求,在一个电信级的传输网络中,误码率要求非常低,在故障排除后要重新进行误码测试,保证误码率在规定的范围内。
- 查看设备的告警信息,确认所有与故障相关的告警都已经清除,有时候虽然业务看似恢复正常,但设备可能还存在一些潜在的告警,这些告警可能会在后续发展成新的故障,所以要仔细检查设备的告警面板或者通过网络管理系统查看设备的告警日志。
2、
- 故障排除后要进行总结,记录故障发生的时间、现象、排查过程以及最终的解决方案,这对于以后遇到类似故障具有重要的参考价值,如果是因为设备的某个软件版本存在漏洞导致的故障,记录下这个软件版本号以及对应的解决方法,如升级到特定的软件版本。
- 分析故障产生的根本原因,是设备硬件老化、网络规划不合理还是人为操作失误等,如果是设备硬件老化导致的故障,考虑是否需要对设备进行更换或者提前制定设备维护计划,如果是网络规划不合理,如网络拓扑结构存在单点故障隐患,需要对网络规划进行优化。
- 分享故障排除的经验教训,在团队内部进行交流,对于网络运维团队来说,通过分享故障排除的经验,可以提高整个团队的故障处理能力,使团队成员在遇到类似故障时能够更快、更准确地进行定位和排除。
评论列表