王翔
建设目的
随着中国移动通信数据业务的飞速发展,上海移动所提供的数据业务也越来越多。目前上海移动的主要数据业务包括城域网、GPRS、短信、WLAN、VOIP、WAP、LBS、EMAIL等业务。这些业务系统的网管主要采用设备提供商提供的网管系统,基本停留在网元管理层次,无法满足“集中监控、集中维护、集中管理”现代化网络管理模式的需要。为了提高网络的管理、维护能力,为业务实现和实施提供有效的管理维护手段,全面提升数据业务的服务质量,上海移动公司进行了数据网综合网管的建设。
数据网综合网管的实现和功能介绍
1.网络架构简介
数据网综合网管网络架构如图1所示
图1数据网综合网管拓扑图
2台SUN680作为核心服务器,通过HA软件进行负荷分担,并共享1个磁盘阵列,SUNV480-1作为流量采集服务器,SUN V480-2作为业务采集服务器,这些设备均连接在综合网管系统的核心交换机上,核心交换机通过防火墙连接到城域网。
考虑到网管系统的安全性,除城域网、VOIP业务等系统外,其他的业务系统(包括短信网关、LBS系统等)采用带外管理,由SUNV480-2、路由器2621、交换机2948组成一个私网采集系统负责这些业务的采集。通过划分不同的VLAN和响应的访问列表隔离这些系统的互访,提高网络安全性。
核心服务器安装了存储备份软件和磁带库,负责对系统的数据进行各种备份操作。告警数据可联机存贮1个月,性能(包括设备性能、链路性能)、业务数据、流量流向数据可联机存贮6个月;资源配置数据可联机存贮3个月的标准计算存储空间。所有数据均可脱机存储1年。
2.采集方式
网管系统必须保证所采集数据的完整性、准确性,同时应保证网管系统在采集数据时不影响被管设备的正常运行。主要采用如下这些方式进行采集:
通过SNMP方式获取网元设备MIB信息;
通过周期或不定时发送ping数据包,判断设备的工作状态;
通过监听代理的TRAP消息获取故障信息;
接受网络设备发送的流量数据包,如:Netflow;
通过读取SYSLOG获取数据,如华为NAS设备;
为特定应用、服务开发的管理代理,如:在服务器上安装 CA AGENT代理,获取信息;
通过数据库、文件等接口采集数据,如:梦网网关的性能统计报表;
通过模仿用户行为,获取网络服务性能数据;
通过手工录入相关数据;
其它合理的采集方式。
3.系统实现功能
上海移动数据网综合网管系统利用东信公司的IPNetManager达到了对数据业务的监控和管理。完成功能情况如图2所示。
下面将对数据网综合网管主要实现的功能进行相关介绍。
资源管理
对全网资源配置信息(包括软硬件信息)组织到一起,使维护人员和管理人员能在一个统一的网管平台上实时查看、监控、统计和分析这些信息,进行网络资源调配和优化。资源管理模块的数据来源于SNMP代理采集和用户手工录入。
资源管理在功能上主要包括配置管理和资产管理。配置管理帮助采集、监控、统计和管理整个网络的配置信息,供维护人员查询网络运行参数和配置状况;可根据网络管理其他功能生成的事件和维护人员的命令调整网络设备配置,以保持整个网络的正常操作。配置管理可以自动获取设备的配置文件,与过去的配置文件进行比较。
资产管理对网络中的各种离线设备和在线设备的资产信息进行管理。如备品备件、软件清单、以及资产分类统计等。
资源管理提供丰富的资源信息统计报表,包括路由器版本信息一览表、设备基本配置信息一览表、网关节点设备数量分类统计、交换机节点设备数量分类统计等报表。
流量管理
数据网综合网管流量管理主要对上海移动城域网业务进行网络流量状况的检测,保证网络能够有效、平稳、安全地运行。并通过对网络设备流量数据的采集和分析,向维护部门、管理部门提供相应的运行数据,供维护人员、管理人员根据网络运行状况制定合适的运行策略,使网络运行在最高效的状态下。同时对用户专线链路的流量进行实时检测。
流量数据采集主要由两部分组成,MRTG部分和NETFLOW部分。MRTG通过SNMP协议从设备处获得流量信息,分析路由设备各个接口的物理流入/流出流量;NETFLOW部分用于采集由协议号和服务号所反映出的网络业务流量、由路由器接口号反映出的链路流量、由自治域号反映出的网际流量,对上海移动城域网上承载的的流量内容和流向进行分析。流量管理以图表的方式把流量数据提供给维护人员
提供网络SLA管理,SLA管理模块通过对城域网的主要链路进行实时和定时采集,测量内容包括物理链路的最大时延、最小时延、平均时延和丢包率。
把流量管理和告警管理进行相应的关联,当流量指标超过预先设定的范围时,系统触发流量告警。
故障与告警管理
故障与告警管理实现对数据网内所有设备的告警监测和故障定位,实时采集故障信息和实时性故障告警,进行告警过滤和相关性分析、告警的实时显示和报表生成、分析来自网元的告警和故障信息,准确预警、定位和解决网络中的故障。
故障与告警管理提供了5个级别的告警,不同级别的告警以不同的颜色和相应的声、光在告警窗口中显示,并通过邮件和短消息把告警信息发给制定的维护人员,在一定时间内未排除的告警,告警级别会自动上升;提供知识库功能,记录维护人员对不同告警情况的不同处理手段,以供查询、共享排障经验。
性能管理
性能管理主要负责数据网内设备的性能监视、性能控制和性能分析,定期采集网络设备、主机、数据库性能信息。性能管理不但能及时收集设备的内存利用率、CPU利用率,通过在主机和数据库上安装CAAgent软件还可以监视系统进程信息、磁盘利用率、数据库进程信息等数据。性能管理当前阈值越过阈值设定时,会产生相应级别的告警。根据采集性能管理数据及各个方面的性能指标、统计值,提供直观的性能报表,供维护人员及时了解设备的性能指标,达到改善网络总体性能水平的目的。
业务管理
数据网综合网管提供丰富的业务管理,提供的业务管理包括VOIP业务、NAS业务、WAP业务、梦网网关业务、WLAN业务、MMS业务、DSMP业务、Email业务等,且还在不断扩充中。把各个专业网管系统的业务管理模块都集成到数据网综合网管系统里面,这是数据网综合网管的特色,它有自己独立的数据模型和数据库,实现各专业网管的功能。综合网管的数据来源于网元或设备厂家自带的网元层/网络层管理系统,具体方式根据各个专业厂家的实际情况来定。数据网综合网管根据每个业务的自身特点提供相应的管理,并提供完善的报表统计功能。
安全管理
安全管理对全网安全起保证作用,安全管理模块提供对用户进行认证和授权的功能,采用CA的eTrustAccessControl产品,基于角色-用户的安全管理,以映射岗位责任制的机构组织结构。用户根据自己的岗位获得相应的权限,访问相应资源。并提供日志管理,记载网管系统的系统事件,包括用户登录访问时间、用户IP地址、操作资源、操作成功或失败等事件。
系统配置了IDS入侵检测,IDS作为防火墙的功能延伸和补充,能检测防火墙内部的网络和主机上发生的非法行为,这些行为多半发起于内部系统,防火墙无法触及。
IDS入侵检测、防火墙和eTrustAccessControl三者的结合,形成了一个立体的防护体系,从网络入口、系统内部互访、操作系统资源访问控制等方面加强了IP网络管理系统的安全性,从而有效地保障了网管系统持续、可靠和可控的运行,以及网管数据的传输和存储安全。
其它功能
数据网综合网管除了上述几种主要功能外,还提供报表管理、网络拓扑、事务管理、IP地址管理等功能。
报表管理是把数据网综合网管各个管理模块提供的报表都在报表管理模块中进行日汇总,维护人员可以到查询到各个管理模块提供的报表。
网络拓扑提供上海移动城域网和多个业务系统的网络拓扑图。在网络拓扑图上可以呈现网络资源配置信息、故障信息、性能信息等各种信息
事务模块提供维护人员维护流程化管理功能,主要功能包括待处理事务记录、值班管理、局数据记录管理、维护日志管理、查询信息管理等,并提供与电子工单系统的接口。
IP地址管理模块提供被管网络的IP地址规划、IP地址信息组织和IP地址信息管理等功能,可以按照网段、子网、主机IP地址的固有从属属性,并结合地理位置、从属业务类型等呈现不同从属关系的各种树图。
实现后的优点
IP综合网管一期工程建设完成以后,维护人员提高了故障的及时响应速度、加强了网络和业务数据的收集和统计、网络状态的图形化呈现等方面的能力。
1) 故障的及时响应
IP综合网管把采集到各种网络告警经过相应处理后,以WEB页面的方式加以不同的声光告警级别直观地体现在维护人员的面前,同时采用邮件、短信的方式,相比以前维护人员经常登录到相关系统查看告警的方式,目前网管的采用大大缩短了网络和业务故障的处理时间。
网络和业务数据的自动收集和统计
以前大量的网络和业务的统计报表都需要维护人员手工收集数据和制表,费时费力,目前这部分工作由网管系统自动完成,定时产生各种统计报表,并且可以灵活设置采集时间,提高了效率和数据的准确性。
配置数据的自动保存
对网络设备配置数据的保存采用人工登录的方式进行采集保存,目前由网管系统定时采集、定时保存备份,同时提供对配置数据变化的合法性进行判断。
结束语
数据网网管系统是数据网网络质量控制、资源配置、业务调度的核心,对于提高网络运维效率、降低网络故障时延起到重要的作用。上海移动数据网综合网管已经完成了一期工程建设,基本上满足了需求。但是,市场的发展及变化、维护人员和客户的需求,对业务的质量、管理维护的效能都提出了更高的要求,我们还需要不断改进和完善数据网综合网管的功能,如提供大客户管理、SLA业务管理、动态资源建模等功能,建立全网资源的信息模型的,提供网络层的综合分析评估手段。
----《通信世界》
|