专业的编程技术博客社区

网站首页 > 博客文章 正文

案例|如何定位无线访问互联网故障问题?

baijin 2024-10-07 06:10:17 博客文章 4 ℃ 0 评论

目前越来越多的业务系统运行在网络基础之上,网络节点越来越多,网络宕机往往会给业务带来直接的损失,而通过流量分析系统针对每个节点进行全方位的流量分析监控后,就可以主动有效地分析网络故障事件。

故障描述

某银行更换完运营商线路后出现了网络运行异常缓慢的状况。得到反馈后,工程师对全网进行了测试,发现:网络运营商切换到电信后,网络运行正常,不存在用户访问缓慢的情况;但当运营商切换到联通后,有线网络一切正常,无线网络出现了访问异常缓慢的现象。同时,该银行有两种型号的AP,网络异常的情况只出现在AP型号为A1602的网络中。

针对以上故障现象,我们在核心交换机上部署科来网络回溯设备,并搭建分析环境。对网络的整体情况进行分析。

部署位置

客户端→AP→WLC→核心交换→防火墙、负载均衡等设备→运营商。

该银行网络拓扑图如下,回溯抓取核心交换的流量,客户端通过科来网络回溯分析设备进行抓包。部署示意图如下:

故障排查

分析结果

  1. 网络缓慢原因定位在WLC无法将数据包转发给AP,导致客户端无法接收到数据包。从而造成网络访问异常缓慢。

  2. 通过和cisco工程师沟通得知,WLC版本过低与AP兼容性不够。

分析过程

通过一台无线PC(10.XX.XX.91)对外网进行访问,在访问过程中出现了网络访问异常缓慢的情况。通过科来回溯分析系统对10.XX.XX.91的流量进行详细分析。

在问题会话中,我们发现了大量的问题会话存在三次握手无法建立的情况。

如上图所示,在具体的数据包交互图上可以看到,10.XX.XX.91向外发送TCP SYN包想和外网建立连接,122.XX.XX.64正常的回应了SYN ACK包,但是客户端一直没有响应。因此也就可以推断出,抓包点以上的设备不是网络异常缓慢的原因。

客户端10.XX.XX.91向202.XX.XX.107进行ping操作且产生大量的丢包,通过客户端上的网络分析设备进行抓包,在客户端上的抓包显示:

客户端接收到的ICMP request数据包延迟大都超过了2秒,如此大的延迟肯定会造成网络异常缓慢。

继续进行数据包进行精确化分析,发现客户端发送出来的ICMP replay数据包和ICMP request数据包相差不大,数据包只有少量的丢失,但对ICMP replay回应的ICMP request数据包延迟太大,造成客户端没有在规定的时间内接收到数据包,从而被客户端识别为数据包丢失。

而在科来回溯分析设备上的抓到的10.XX.XX.91向202.XX.XX.107发送的ICMP数据包和客户端上抓到的数据包数基本一致。说明只要是WLC将数据包送出去,外网都对相应的数据包进行了回应。

但是ICMP replay和ICMP request数据包之间的时间间隔非常小,反而是replay和replay之间的时间间隔较大。而结合客户端抓包的现象,可以断定抓包点以上的网络路径是健康的,网络访问异常缓慢主要是抓包点以下的网络设备造成的。

而为了这次网络排障工作,我们简化了网络环境。抓包点以下的设备只有WLC和AP。因此,可以确定是WLC和无线AP之间出现了问题。

结论及处理结果

根据抓包结果,可以确定是WLC和无线AP之间通信出现问题。结合之前无线工程师反映WLC设备版本过旧,建议将WLC设备更新到最新版本。

无线工程师利用变更时间将WLC设备版本升级后,故障现象消失。

价值

通过流量分析系统针对每个节点进行全方位的流量分析监控后,可以主动有效的对网络故障事件进行分析,可快速分析出是由于异常网络行为还是网络设备问题造成的网络宕机,同时当网络出现问题时,能够快速分析定位问题点,从而把业务系统因网络宕机的损失降到最低点。

延伸阅读

基于智能分析的主动高效业务性能管理

如何分析门户网站内容遭恶意篡改过程?

一个真实的利用Struts2最新漏洞的高级攻击全程解析

(请在对话低栏菜单“服务支持”中获取最新案例汇总)

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表