随着IP技术的进步,数据通信网络得到迅速发展。在NGN/3G时代,IP承载网的地位非常重要,因此怎样有效管理数据通信网络是运维工作中必须研究的一个重要课题。
铁通数据通信网络采用了NE80、S8016、MA5200、S8505等设备,除了传统登录设备的维护方式外,必须借助有效的工具来提升运维效率。
本文从网元管理、拓扑管理、故障管理、资源管理、性能管理、网流采集分析、网络业务管理7个方面对数据通信网络的运维管理作一简介。
1、网元管理
网元是电信管理网(TMN)体系结构中的基本管理元素,在数据通信网络中一般指路由器、交换机等设备。
网元网管是最“简单”的网管,提供远程设备管理的基本功能。维护人员通过它可以查看设备面板、端口状态以及一些协议数据,并可以进行VLan配置、接口shutdown、undo shutdown等基本操作。部分网元网管软件还提供短周期的性能监视功能,可以对设备、接口等进行监控,监控结果采用直方图、折线图等形式输出。使维护人员可以了解IP、TCP、UDP、ICMP等报文的情况,并可以掌握接口带宽利用率、接收包错误率等信息。
需要注意的是,此类性能监控虽可以实时输出,但是其总体监控周期比较短,不能适应大规模网络性能管理的要求。
2、拓扑管理
随着网络规模的发展,网络结构日益复杂,维护人员需要一个拓扑管理系统,用以准确掌握网络拓扑情况。
拓扑管理用于构造并管理整个网络的拓扑结构,维护人员通过浏览网络拓扑视图,实时了解整个网络的运行情况。
在小型的网络中构建一个拓扑图形就可以浏览网络的全貌,但在网络设备大量增加之后网络结构异常复杂,使用一张拓扑图查看网络已经不具有现实意义。此时就需要划分多个区域进行拓扑管理,比如按照不同地区将设备划分到不同子图中。
华为公司的数据管理系统(DMS)不仅提供了按照地域划分网络的物理视图,还提供了按照IP网段划分网络的IP视图。物理视图和IP视图是两个相对独立的拓扑视图,给管理网络提供了不同的视角。
根据不同的管理需求,利用拓扑视图缩放、拓扑视图自动布局、拓扑过滤等功能,可使网络维护化繁为简。
3、故障管理
对网络紧急故障的处理是网络运维人员的一个重要工作,而及时发现故障是保证该工作有效开展的前提。应用DMS可以有效感知故障。并协助进行故障定位。
DMS故障管理包括告警管理和SysLog管理两部分。
3.1告警管理
普通的告警管理是网管接收到设备发来的Trap报文产生告警,但是在网络有丢包或者设备上行接口down的情况下,网管服务器有可能接收不到Trap报文。如果出现这种情况就会导致维护人员因不能及时收到告警而延误了恢复故障的最佳时间。
DMS针对此情况,将拓扑功能与告警功能结合,并提供了snmp轮巡和ping轮巡的工作方式,在收不到Trap报文时也能保证及时发现故障源。
告警管理主要功能包括:对告警信息和运行信息进行实时监控、查询设备的历史告警信息和运行信息、查询和配置设备的告警信息等。
3.2SysLog管理
SysLog管理提供了通过网管来查看SysLog信息的途径,简单、便捷。它可以长时间保存设备日志信息,避免因为设备缓冲区不够大而导致重要日志信息遗失。
4、资源管理
在大规模IP网络中,组网结构复杂、设备数量繁多。网络运维人员需要掌握网络中的设备(如网络中设备、单板、子卡、端口、接口、链路等)资源的基本情况,以及网络中的异常资源信息。网管系统的资源管理功能可以帮助完成该工作,并可将网络中的资源数据直接导出为html、txt、csv格式的文档,便于维护管理网络资源。
5、网络性能管理
若要更好地管理和改善网络的运行,网络运维人员还需掌握网络的流量以及其他一些性能指标,并能对该指标进行长时间监控分析,做到提前预防,防患未然。专业的网络性能管理工具可以协助做到这点。
DMS-IP网络性能管理器和TrafficView是网络运维人员常用的工具,其中TrafficView相对简单,这里不作介绍。
DMS-IP网络性能管理器可对大规模IP网络性能进行监控。其主要实现对设备、单板的CPU占用率、内存占用率性能指标的采集,对链路、接口的流入/流出流量、流入/流出带宽利用率性能指标的采集,对设备间的时延、抖动、丢包率性能指标的采集。其相关采集信息可通过报表系统进行输出。
运维人员可以在网络上部署多个网状、星状甚至点到点的测试点(网络性能采集、测试的基准点,一般是一台设备)用来进行性能数据的采集分析,如图1所示。
图1 网络性能管理器示意图
通过IP网络性能管理,运维人员能够通过查看性能数据、图像等,了解网络的运营情况。此外还可以设置性能数据的阈值,当性能数据越限时,可以提醒维护人员查看网络状况、及时进行调整。以避免问题的发生。
6、网络流量采集分析工具
在网络运维中,有时候需要了解哪些用户访问外部网络比较频繁、哪些网段之间互访频繁、哪些网站向外部提供了大量的数据服务,以及某种类型流量异常等信息,可使用网流采集、分析工具实现该功能。
所谓网流(NetStream),是一个特定的源设备到一个特定的目的设备的单向包序列,它是由若干关键字标识的一系列IP数据包组成的。关键字包括了源地址、目标地址、源端口、目的端口、协议类型等。这些关键字是对网络流量分析的依据。如振荡播病毒的NetStream流数据典型特征为:目的端口445,协议类型TCP,字节数48。
通过对网流的采集和分析,可以为运维中的流量工程分析、网络设计优化、网络安全监控等方面提供支撑。
7、网络业务管理
IP网络技术发展日新月异。MPLS VPN技术日益成为时代的新宠,这也对运维工作提出更高的要求。
MPLS VPN的网络维护涉及到客户管理、VPN业务管理、网络管理等工作。传统人工管理容易造成配置出错,一旦出现配置错误也很难察觉,并且难于进行业务监控和故障定位。不能有效地管理VPN客户,管理效率低,不能满足日益增长的业务需求。
华为VPN Manager业务管理系统可以实现从MPLS VPN业务规划到业务部署、业务审计、业务保障,以及业务拆除的全流程工作,有效降低MPLS VPN业务管理的复杂度,使运维效率得到质的提升。
8、总结
总而言之,数据通信网络运维工作并不需要非常高深的理论知识背景,只要采用合适的方法、有效的网络管理工具,都可以及时掌握网络资源、网络异常、网络性能、网流情况,以及业务部署等实用信息,通过这些信息可以大大提升网络管理的效率。