沈建苗 编译
传统的故障检测工具和方法,不足以为3G网络承载的移动数据服务排忧解难。
IP和无线技术的融合,加上增添复杂性的几层新协议,带来了功能和复杂性都前所未有的3G网络。对3G网络上的数据服务进行故障检测、分析并且排除故障,需要软件和硬件工具结合。应对不同运营商面对的具体难题时,往往还需要专门的培训和支持服务。如今,移动运营商关注的一个重点就是,改进传统的面向语音的故障检测工具、技能组合以及方法,以应对3G数据服务故障检测及优化的挑战。
在通常的运营商使用模式下,绩效管理(PM)系统提供实时的关键绩效指标(KPI),并把问题报告给工程队伍、网络运营中心及其他与问题相关的团队。不过,很多关键绩效指标无法通过运营维护中心(OMC)获得,采用新技术的基础设施尤其如此。另外,绩效管理系统的主要作用(尤其是采用了新技术后)是检测问题。实际解决问题通常需要另外的详细数据,这些数据往往来自协议分析仪或者路测设备。要想快速有效地提供服务、加快检测出问题后的故障排除,就需要计数器所不能获得的一层详细数据,以支持从高层概要统计数据一直到单个用户信令消息的分析。
3G面临检测难题
对许多运营商来说,如今根本不可能对3G数据服务进行有效的故障检测和排除。从根本上来说,传统的检测工具和方法以及不够成熟的新系统无法获得检测及解决数据服务故障所需要的数据。这种缺乏可见性的情况给运营商带来的直接影响是: 错失了数据服务带来新收入的机会,工程技术资源得不到有效使用。
技术复杂性
下一代无线服务的技术复杂性在急剧增加。与日俱增的不同协议使众多服务和内容如今得以提供给数量不断增加的移动设备,而这些都是基于新一代交换和无线技术的支持。检测数据服务出现的问题,并且排除故障,成了一种端到端的挑战。诸如吞吐量小之类的简单问题有可能是手机兼容性、无线电干扰、内容服务器过载或者网络堵塞等任何一种因素引起的。为了满足运营商在降低运营成本方面的商务需求,运营商必须要能够管理和控制越来越复杂的网络。
传统的组织结构和故障检测方法是基于电路交换语音网络的,已经不足以处理数据服务端到端性质的问题。基于负责多个网络单元和链路这一体系的组织往往无法满足从端到端负责服务质量的需求。
典型的网络运营队伍缺少可把服务质量和底层网络单元关联起来的工具,确定哪些职能小组应当负责哪些数据服务问题的效率极为低下。
传统工具的局限
许多运营商长期以来一直注重培养电路交换无线技术方面的专业人手。现在这些运营商们面临的重大挑战是: 必须培训现有的技术队伍,以应对新的复杂的3G数据服务所带来的挑战。运营商迫切需要弥补不同职能小组在专长方面的空缺,尤其是无线网络队伍和核心网络队伍,要想在端到端故障排除工作中成为最佳拍档,他们就要更多地了解对方的工作范围。
过去,运营商基本上依赖绩效管理系统和工程工具如测试手机、路测设备或者协议分析仪,来了解客户在语音服务方面的体验,以及查明服务异常的原因。不过,这些工具存在的一些局限性大大削弱了其为3G数据服务排除故障的功能。
特别是,传统绩效管理系统获得的信息并不能准确给出有关服务质量或客户体验的情况。结果,运营商接到客户反映服务质量问题(吞吐量小或者时延过长)的投诉是越来越多,而绩效管理计数器根本检测不出这些问题。
就面向数据服务的关键绩效指标而言,绩效管理系统也不够成熟,并且缺乏足够快的适应能力,跟不上最新出现的兼容性和绩效问题,通常没有跨应用软件、IP和无线基础设施协议层的事务方面的关键绩效指标,这样一来,运营商只能了解数据服务及底层网络运行状况的基本信息。
绩效管理系统在整个数据服务质量策略中确实起着关键作用,不过如今对许多运营商来说,它们的功能还远远不够。绩效管理系统依靠每个网络单元的计数器,但对需要跨协议层和网络单元关联数据的端到端故障排除而言,计数器获得的信息过于笼统。而协议分析仪或者IP检测器等工程工具获得的信息又过于丰富,并不支持路测、呼叫跟踪或其他无线网络数据源,也就无法提供无线网络的详细情况。
路测设备有助于无线链路分析,不过大部分数据服务问题出现在无线链路层以外的几层。另外,路测系统最适合在车内模拟用户,而路测数据无法测出实际用户的体验,所以想使用这些系统来模拟行人和楼内用户,效果会非常差。
解决之道
随着数据服务成为重要收入来源,许多运营商面临的一大挑战就是,自身组织机构和有效排除数据服务故障的方法在不断变化。对数据服务而言,运营商越来越无法利用单个网络单元的绩效统计数据来了解用户的体验。数据网络运营中心工作人员、核心网络工程队伍和数据工程师这些人要密切合作,采取端到端方法来处理服务问题。
用协调方法为数据服务问题排除故障的拟议模型假定引起数据服务问题的主要来源有两个:一是来自绩效管理系统,表现为基本网络绩效统计数据;二是直接来自顾客。其他系统可能会以类似方式提供通知数据服务问题的功能。就一些面向语音的传统方法而言,这种模型主要就是引入了两个新概念:现场数据服务工程师和集中数据服务故障排除队伍。
在这种拟议模型中,现场数据服务工程师充当一线人员,端到端地负责数据服务问题。不过,因为数据服务工程师可能实际上只直接负责本地安装的无线接入网络(RAN)基础设施,所以其重点是确定已发现问题的数量,为RAN排除故障,进行基本的全面故障排除,以及把复杂问题上报给集中服务故障排除队伍。集中服务故障排除队伍则进行端到端分析,包括为复杂问题排除故障所必要的跟踪来自故障设备的消息在整个基础设施当中的流动。这支集中队伍把问题隔离开来后,交给有相应专长的部门。在许多情况下,最终会交给厂商去修正错误,或者想出解决问题的变通办法。拟议模型可以完成一系列典型的数据服务故障排除任务,譬如为与无线网络相关的网络接入排除故障、对数据包丢失进行端到端故障排除。事实证明,这种模型可以大大节省人力。
现有的运营支撑系统(OSS)根本无法提供进行这种典型的故障排除任务所需的有用信息。虽然特定工具譬如协议观测仪和人工编写的脚本可以用来执行这些任务,不过执行每项任务平均大概需要一个工作日,需要搜索数兆字节的原始协议数据、进行数据人工聚合、数据源人工同步,以及消息层质量问题和网络单元的人工关联。
绩效管理系统提供的是厂商特定的、整个网络级别的统计数据和运营维护中心计数器信息,如果借助一个统一平台,为绩效管理系统赋予提供丰富详细信息、并且可以配置的方法,就能够带来运营上的诸多改进,包括加快问题的解决、提供用户使用新数据服务的宝贵信息、缩短进行重要故障排除任务的时间、能够在试运行期间有针对性地对企业用户进行故障排除,以及迅速查明违反服务级别协议(SLA)的原因。
摘自《计算机世界报》 第40期 D21
|