移动智能网SCP系统过负荷控制的改进
发布时间:2006-10-14 3:57:47   收集提供:gaoqian
吕志鸿 王玉龙 廖建新

(东信北邮信息技术有限公司 北京100083)


  摘 要 随着移动智能网SCP系统在移动通信领域越来越广泛地运用,SCP系统的稳定性也越来越重要。需要有一个更好的过负荷控制机制,不仅能够最大限度地利用SCP系统资源,也能够依据系统的运行情况及时地启动过负荷控制,能够提高SCP系统的稳定性和可用性。

  关键词 过负荷控制 排队呼叫总数 初始化排队长度 过负荷控制基数

1 前言

  每一套移动智能网SCP系统的处理能力,受各种资源的限制,其处理能力都是有限的。但是移动用户的呼叫强度是无法预计的。因此,必须有一个好的控制机制,在移动用户的呼叫强度超过SCP系统处理能力的时候,能够拒绝部分呼叫,以确保SCP系统的稳定性和可用性。因此,中国移动集团公司移动智能网SCP系统设备规范中就有过负荷控制的要求。

  过负荷控制是在SCP系统达到或即将达到系统设计容量的时候,主动拒绝部分呼叫,减少系统负荷,以确保SCP系统的稳定性和可用性。因此,设计一个可靠而有效的过负荷控制机制,对SCP系统的稳定运行十分重要。

2 现有过负荷控制机制及其缺陷

  按照中国移动集团公司的SCP系统设备规范,过负荷控制的机制是通过对排队呼叫总数的控制而实现的。从系统的处理能力角度考虑,当系统的排队呼叫总数达到满负荷时,系统对当前到来的呼叫请求进行过负荷控制,并不区别该呼叫的具体业务或者具体用户。

  当TC层处理从信令链路接收到TC原语,在开始一个新的对话向SCF上报之前,对整个系统的排队呼叫总数进行判断,如果呼叫总数在系统允许的负荷之内,则将本次呼叫按照正常呼叫处理。否则,系统会根据统计数据决定当前所采用的过负荷控制级别,启动该控制级别的过负荷控制算法,并按照相应算法决定是否拒绝当前到来的呼叫请求。

  根据系统的处理能力确定系统呼叫排队最大长度,CMIN02-SCP并将CPU利用率的80%作为系统的满负荷门限。在此基础上将过负荷控制分为四个级别。

  但是,从SCP系统实际运行的情况看,依据系统呼叫排队长度判断系统的负荷,并加以过负荷控制,有很大的缺陷。

  1. 在SCP系统上有很多业务,各种业务的话务忙时不尽相同,例如智能网的两个主要业务,PPS业务和VPMN业务。VPMN业务的忙时在上午,而PPS的话务忙时为晚上。一个PPS呼叫和一个VPMN呼叫对SCP系统的消耗是不同的。因此,不能以呼叫排队长度判断系统的负荷。可能出现系统资源足够而过负荷控制机制已经启动的情况。

  2. 不能制止瞬间话务高峰对SCP系统的冲击。

  3. 在SCP系统中,除了呼叫的处理以外,还有其他的系统负荷,例如网管、统计、告警和SCP系统服务器自身的消耗。这些系统负荷往往是瞬间的,消耗的资源也很大,一旦异常,SCP系统就会出现堆积,不能正常处理呼叫,但系统的排队长度没有达到系统设置的最大长度,不能对SCP系统起到有效的保护作用。

  4. 在SCP系统中,过负荷控制是由后台处理机实现的。一旦后台处理机的资源不足而导致系统无法运行,就可能无法启动负荷监视,无法保护SCP系统。

  本文介绍一种新的过负荷控制机制,能够避免系统资源已经不足而过负荷控制没有启动的情况。

3 对原有过负荷控制机制的改进

  按照中国移动集团公司SCP设备规范的要求,SCP系统在收到一个呼叫请求,到返回消息处理结果之间的消息响应时间是有要求的,例如PPS业务为250ms。一个呼叫的TC_BEGIN消息已经发送到SCP系统,而SCP系统还没有返回消息处理结果,这时的呼叫称为正初始化呼叫。SCP系统初始化呼叫的数量称为初始化排队长度。

  SCP系统在正常运行的情况下,其CAPS数是一定的,初始化排队长度也是一定的。当SCP系统资源不足时,就不能及时地返回消息处理结果,初始化排队长度就增加。而系统资源足够时,系统及时返回处理结果,初始化排队长度减少。因此可以依据系统的初始化排队长度的大小判断系统的负荷,并加以过负荷控制。

  东信北邮公司生产的CMIN02-SCP系统,分为前台部分(FEP)和后台部分(BEP)。后台部分主要运行SCP系统的数据库和应用处理部分,而前台系统主要是7号信令系统的维护和7号信令/CMIN02-SCP系统内部协议的转换。负责7号信令/CMIN02-SCP系统内部协议转换的模块是n7server模块。在n7server模块中设计一个新的过负荷控制机制:

  1. 设计一计数器NumOfIndDialog,记录SCP系统初始化排队长度。在n7server模块从7号信令网络中收到TC_BEGIN消息以后,NumOfIndDialog数加1,当SCP后台返回该对话的处理结果以后,NumOfIndDialog数减1。

  2. 设一全局变量NumOfindDialog,为过负荷控制基数。 当NumOfIndDialog数值达到NumOfIndDia- log时,启动过负荷控制;当NumOfIndDialog数值恢复到NumOfIndDialog以下时,过负荷控制取消。NumOfIndDialog数值可以在系统运行前设定,也可以在系统运行过程中设定。

  3. 为了保护SCP系统的稳定运行过负荷控制操作如下:

· 在NumOfIndDialog达到过负荷控制基数时,拒绝20%新的呼叫,并向后台(BEP)发送告警信号;

· 在NumOfIndDialog达到过负荷控制基数2倍时,n7server进程拒绝40%新的呼叫;

· 在NumOfIndDialog达到过负荷控制基数3倍时,n7server进程拒绝60%新的呼叫;

· 在NumOfIndDialog达到过负荷控制基数4倍时,n7server进程拒绝80%新的呼叫;

· 在NumOfIndDialog达到过负荷控制基数5倍或5倍以上时,n7server进程拒绝所有新的呼叫;

· 当NumOfIndDialog数量降低时,逐级降低过负荷控制级别。在NumOfIndDialog恢复到过负荷控制基数以下时,向后台(BEP)发告警清除信号。

4 新过负荷控制机制的优势

  1. 新过负荷控制机制是依据SCP系统的响应速度而设计的,能够真正反映系统的负荷情况,能够使SCP系统在资源足够的情况下尽可能多地接续呼叫,与呼叫的总队列数无关。而在SCP系统资源不足时及时启动过负荷控制,保护SCP系统的运行。

  2. 新过负荷控制机制是在SCP业务负载机器之外的机器上运行,与SCP业务负载机器间不存在任何资源冲突,能真正有效地保护SCP系统。并且减轻了SCP业务负载机器由于过负荷控制而增加的系统资源占用。

  3. 新过负荷控制机制能够有效地防止突发情况对SCP系统的冲击,例如瞬间话务高峰,SCP系统其他功能(如统计、告警和网管)的运行。 5 小结

  随着移动智能网SCP系统在移动通信领域越来越广泛地运用,SCP系统的稳定性也越来越重要。新过负荷控制机制不仅能够最大限度地利用SCP系统资源,也能够依据系统的运行情况及时地启动过负荷控制,能够提高SCP系统的稳定性和可用性。在东信北邮新版本的CMIN02-SCP 4.04版本的系统中,增加了对新过负荷控制机制的支持,并且已经商用。商用的结果反映新过负荷控制机制能够有效地提高SCP系统的稳定性和可用性。

----《中国数据通信》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50