移动通信预警算法和系统研究

时间:2022-01-15 03:40:26

移动通信预警算法和系统研究

1概述

在设备网管没有告警产生,故障点往往比较隐蔽而难以定位,在这种情况下,核查相关的统计指标和数据,分析指标的变化,是故障定位的重要手段。

2详细技术内容

2.1算法详细说明

软件异常通常只产生的系统内部,由此导致的严重故障,通常不会在系统表面状态上有所体现。但是网元运行时的任何情况,总会反映在其内部的一些指标中。通过分析这些指标的异动,任何隐性故障都难逃监控。因此,其关键就在于指标的选取和门限值的设定。移动通信话音核心网的指标体系,最能够体现设备运行异常的指标有以下两类:试呼次数、话务量,这些数量累积类的指标。(1)话务量,这个指标最直观反映了设备处理业务的情况。当设备工作在异常情况下,它处理的话务量肯定是偏低的。(2)试呼次数,当设备运行异常时,相应的其中一个或者几个类型对于的试呼次数就会发生突变。比如说,某节点发生异常影响呼叫接续时,导致大量用户反复拨打手机,此时这个指标就会发生激增。绝大多数的软件故障都会出现这种情况。不同层次网元的试呼次数可以联合分析,比如MSCSERVER和BSC试呼次数,能够更加精准的定位到故障是出在接入层网元还是在核心网元。成功率等指标:最典型的各个接口信令连接建立的成功率。比如所VOIP的核心网,MGW的Nb口建立成功率。Nb口建立连接,是呼叫建立的最后一步。MGW上所发生影响呼叫接续的任何异常,在这个指标都能够有所体现。Mc和Nc接口SCTP重传率,反应了软交换网络IP通道传输质量。当成功率偏低时,表示IP接口板或者承载网本身出了问题。位置更新、寻呼成功率,反应了应用层协议的状况。网元运行时产生任何较严重的异常,在这些监控对象中都会得到清晰的体现。而且,不考虑一般故障,也使得该监控体系内容比较精简。它能大幅度减少信息采集的数量,间接缩短了后台程序的分析数据时间,因此实时性更加好。为了快速设备故障,还引入了运行状态预警。所选取的对象,应该能够准确反映网元运行的情况;同时为了效率,提高算法的实时性,监测对象不应该包含那些不太重要的状态。监测对象包括:计费指针、负荷、软件错误记录、连接状态、路由拥塞、重要事件、Mc接口状态、A口路由设备占用、SC-CP与MTP信令状态等等。这些状态不但体现了网元本身处理业务的关键能力,而且还反映了设备与其它网元通信的情况。任何一个状态的不正常,都将可能会使业务受到影响。分析算法按照各个状态的重要程度,按照如下顺序进行分析:软件错误恢复记录->计费情况->Mc接口状态->M3UA信令链状态->IP和MAC层协议状态->SCCP与MTP信令状态->A口路由设备占用->负荷->路由拥塞状况->重要事件。虽然有先后次序,但程序仍然会以整体性的视角来,归纳各个状态分析后的结果,找出其共性、内在联系,准确的对网络异常作出预警。

2.2系统架构

系统采用典型的三层结构,采集层、服务层、应用层。(1)采集层负责通过定制OPS任务,连接网元采集数据;获取存放在OSS服务器上网元性能统计文件。(2)服务层有两个主要功能;解析采集的数据,生成原始告警;进行告警聚类划分;使用智能预警算法,智能定位到故障源网元、故障主节点,生成预警信息。(3)应用层主要实现预警信息的短信推送,同时也提供历史告警查询、短信发送名单定制等功能。系统可以预警的故障类型:系统运行时,能够准确、及时的预警出各种硬件、软件、局数据故障,以及用户行为导致的网络异常。(1)硬件类:包括各种影响业务的严重故障。(2)软件类:包括各种软件原因引起的,导致网元不能正常处理话务的故障。比如说处理呼叫接续模块异常、重要资源吊死、任务队列溢出、内存拥塞、负责建立承载的模块异常、主备板不能倒换等等。(3)局数据类:包括各种参数配置不当引起的错误,导致业务受到影响的情况。比如说MTP/SCCP缓冲区设置得太小,导致信令拥塞。用户行为导致的网络异常:这里的异常主要指高负荷。比如说,重大节假日因业务量激增而导致的限呼、拥塞等等。

2.3应用案例

接到客服反映,2012年某天,广东某区域移动用户投诉说无法使用GPRS困难。投诉数量不断增多,而且当时是业务较繁忙的时期,故障非常紧急。经检查,覆盖该区域的网络设备上都没有相关告警。客服反馈来的投诉信息,用户的分布也比较零散。这都给故障定位造成很大的困难。根据“故障预警系统”监测每15分钟网元的统计指标,发现某BSC的数据业务流量异常,与上15分钟相比突然下降了近50%。系统把预警结果及时发给维护人员,根据预警消息,判断是该BSC有问题。事后厂家给出的分析报告,也判断故障的原因是该BSC软件吊死吊死。再次证实了预警的准确性。

严重影响业务的故障,其处理得及时与否,直接关系到用户的感知。其关键在于尽早发展网络异常。为做到先于用户发现网络问题,以赢得抢通业务的先机,本文提出了一直基于性能的移动通信VOIP网络故障预警方法,并且以系统的形式实现。该方法设计目的明确,专门针对严重影响业务的重大故障。通过实时的采集,全面且深入对网元运行状态、关键性能指标进行分析,从而及时、精准对重大故障作出预警。

本文作者:吕品谢永基工作单位:中国移动通信集团广东有限公司佛山分公司