一类分布式网络恢复协议的可实现协议
发布时间:2006-10-14 4:06:45   收集提供:gaoqian
一类分布式网络恢复协议的可实现协议(王亚宏、邬贺铨) 摘要认可实现的角度,对现有的一类基于数字交叉连接设备的分布式网络 恢复协议进行比较详细的分析,提出其中共同存在的一些问题,并给出了一些 可能的解决方案。 关键词 分布式网络恢复 数字交叉连接 网络恢复协议 一、引言 现代信息社会中,通信网成为支撑现代经济的最重要的基础结构之一。随 着电信网规模和容量的不断扩大以及通信传输技术朝着超高速和大容量的方向 发展,对传送网的生存性提出了愈来愈高的要求。 基于数字交叉连接(DXC)设备的网络恢复是基于DXC设备固有的交叉连接 功能,通过提供为受影响的业务进行重新配置路由来实现的。基于DXC的网络 恢复最主要的特点是能够高度共享网络中的冗余资源,20%-30%的冗余容量就 可以达到较高的业务保护能力。并且基于DXC的分布式网络恢复的方法有可能 实现网络自愈。在发生故障时,能自动对受损的工作通道进行恢复,恢复时间 较短,有可能实现无损伤恢复,因此得到十分广泛的研究。目前的分布式网络 协议的机理是相似的,可将其归为一类,本文中,第二节先介绍这一类分布式 网络恢复协议的原理和单个协议的特点;第三节中从一个可实现的角度分析该 类分布式网络恢复协议,提出该类协议的一些共同问题,并给出一些相应的解 决方法:最后在第四节中对基于DXC的网络恢复策略作了小结。 二、分布式网络恢复协议 自从1987年W.D.Grover提出第一个基于DXC分布式网络恢复协议以来,由 于分布式网络恢复时间快等特点,得到十分广泛的研究。现有的分布式网络恢 复协议除了Grover的SHN(自愈网)算法,还有Bellcore的FITNESS对算法、 RREACT算法、Komine算法、双向算法和Trans算法等。这些协议的原型是相似 的,一般基于三个阶段的网络过程。下面以单键路失效时链路恢复为例描述这 三个过程。 当一条链路的失效被检测到后,该受损链路的两端节点一个被指定为发送 者,另一个被指定为选择者(根据事先指定的规则),参加恢复过程的其他节 点成为中介节点。首先,发送者向所有相邻的节点广播(洪泛)恢复消息,为 限制恢复消息数目和算法执行时间,一般对消息选择性广播,例如限制消息的 转接次数(跳数);中介节点更新收到的恢复消息,并根据特定的算法向相邻 节点选择性广播收到的恢复消息。当恢复消息到达选择者时,这就意味着存在 一条或多条恢复路径。这时选择者在选定的恢复路径上向发送者发出确认消息, 并预先保留该路径上的空闲容量(预留也可在恢复消息广播或证实消息广播时 进行)。 当发送者收到确认消息并验证恢复通道后,它沿着所选定的恢复通道向选 择者发送证实消息:当中介节点收到证实消息,它根据证实消息消息中的指令 重新配置其交叉连接矩阵;在选择者收到证实消息后,它重新配置其交又连接 矩阵,便受损的工作通道转到新的恢复通道上。当所有的受损容量得到恢复或 再也不能恢复,恢复过程结束。 SHN算法是以单个受损信道为单位进行恢复,并采用物理层信令。FINESS 算法则采用捆绑(bundling)恢复,采用多轮消息、“波动”来搜寻所有的 可恢复通道。Trans算法与FINESS算法的不同在证实消息广播阶段,对每一条 恢复消息,它发送多条证实消息。Komine算法与FINESS算法的不同是它以最 短路径优先进行受损通道的依次恢复,而FINESS算法则是最大恢复流量优先。 PREACT则是由恢复消息收集网络中的各节点间的空闲信道数据,然后由选择 节点进行恢复通道选择。双向算法则与以上算法不同的是它是从受损链路的 两个节点处同时发送恢复消息,通过两种不同的恢复消息在中介节点处的耦 合来实现恢复通道的寻找和确认。 三、可实现分析 认可实现的角度来看,该类分布式网络恢复协议存在的问题包括:2秒的 恢复时间限制、统一处理链路失效和节点失效、消息对空闲容量的争夺、路 由成环、数据传输的可靠性以及可回复性恢复等方面。下面依次分析和讨论。 1.2秒的恢复时间限制 从中分析业务对生存性的要求,一般将网络自愈的恢复时间要求定为2秒, 以达到对大多数业务实观无损伤(hitless)的恢复。现有的分布式恢复方案 一般都没有考虑实现替代路由的物理实现所需的时间,直到1994年T.H.Wu等 人提出在现有的DXC设备串行处理的结构下,实现替代路由的交叉连接所需的 时间对分布式恢复的2秒的恢复时间R标有很大的影响。提出采用捆绑恢复和 优先级恢复以及采用分布式并行处理的DXC系统结构的方法来实现2秒的恢复 时间目标。 另外,W.D.Grover等人在提出交叉殒连的方法,其中心思想是将基于D XC的网络中的空闲信道接一定的方法先预连起来,当网络中发生故障时,已 经有交叉连接好的通道,只需采用简单切换的方法即可恢复一定的受损信道, 而无需测试,从而减少恢复时间。 2.统一处理键路失效和节点失效 该类协议一般都将节点失效等价于多链路失效,这样从算法本身来说, 能够处理节点失效的情况,尽管效率可能会低一一些。但是应当看到这是以 算法本身首先能区公故障是节点失效还是链路大效为前提的,而在实际中 (例如SDH中),这是不可能的,故障两端的节点只能察觉发牛故障,而不 能分辨出是相邻节点失效或只是链路失效。 另外,大多数算法都基于发送者一选择者机制,对于发送者、选择者 的角色分配,~般都事先指定或根据节点的ID号自动确认,但是在节点故 障,设想一下,如果已确认为发送者的节点发生失效,这时由于发送者已 失效,网络根本就没有恢复寻道消息的源,网络对故障没有任何处理。反 之,着已确认为选择者的节点发生失效,网络中消息没有了接收者,协议 同样失效,而且,在节点故障情况下,是很难事先指定发送者和选择者( 尽管Komine算法考虑节点失效的情况,但它依然是假定了发送者和选择者 的事先确认,所以依然存在上述的问题)。 尽管节点失效的情况在网络故障中是很少有的观象,但是应当看到, 算法不应在节点失效的这种情况下作出错误判断,它应该要么进行一定的 恢复,要么什么也别作。 因此,对现有协议要么采用一定的机制进行故障类型确认,但这需要 延长恢复时间或只采用通道恢复,这时由受损通道的源捐书点启动恢复过 程,但是这种情况下,会延长恢复时间(需通道居告警信号),并且存分 多个不同节点对的消息,这些消息会加剧对空闲信道(或DXC端口)的争 夺。 我们提出一种能统一处理节点和键路实现的协议,称为对称的分布式 路由再选择多法(SDRA:Symmetrical Distributed Rerouting Algorithm), 该协议基于节点问对称的角色分配,其关键处在于在消息广播的过程中进 行故障类型确认,通过消息耦合的两种不同类型:节点耦合和链路耦合, 来区分节点失效和链路失效的情况。消息头的第一字节为故障对应瑞的节 点ID,第二字节为该发送消息的节点ID,在链路失效的情况下,两消息相 遇时这两字节的ID号构成对应关系,称为链路耦合;在节点失效的情况下, 两消息相遇时第一个字节ID号相同,称为节点耦合;因此可判断出是节点 失效和键路失效,从而统一处理。 3.消息对空闲容量的争夺 即使在单链路失效、链路恢复的情况下,网络中只存在一个节点对之 间的消息发送,也存在消息对空闲容量(或DXC空闲端口)的争夺。这些 协议一般采用先到先服务的方式进行,但叮能发生由于消息的争夺而形成 死锁的情况。在多链路失效和节点失效以及通道恢复的情况下,由于网络 中存在多个源于不同源一宿节点对之间的消息,这些消息之间更容易发生 争夺空闲信道的情况,而导致死锁发生。而且,对于~个节点既充当发送 者的角色,义充当接送者的角色,对许多算法来说,合理有效的通道预留 是很难实现的。 一种可行的解决方法,是对每一源宿节点对间的消息进行分配优先 级,采用比较优先级的方法解决冲突,但要合理地进行优先级分配也是很 困难的,或者采用类似总线以太网的避免冲撞检测的随机退让方法,但该 方法对恢复时间和效率以及稳定性万面的影响需作进一步的考虑。 4、路由成环 在链路恢复的情况下,很容易造成路由环路,从而不必要地占用了网 络中的可工信道,影响恢复效率,如果避免了路由环路,则恢复过程中会 释放原来被路由环路占用的信道,这样恢复效率会有所改善。 5.数据传输的可靠性 数据传输的可靠性是指如何保证各节点间传递信息的各消息的完整性 和正确性。因此除了可靠的传输协议和纠错外,还需要考虑消息的安全性, 防止恶意节点的欺诈行为,特别是在多运营者的环境下,进行消息认证和 不可否认的确认是有必要的。一般可采用类似于网络安全协议方法,如数 据加密,数字签名等。 6.可回复性恢复 网络恢复算法的可回复性是指在失效链路得到修复后,链路应能回复 到失效发生前的正常情况下的路由配置,因为正常情况下的路由和流量配 置总是基于一定策略的最优配置。一般来说,集中式恢复较分布式恢复易 实现可回复性,链路恢复较通道恢复易实现回复性。因此若需进行可恢复 性恢复,需对协议进行改进,以保留故障发生前的配置数据;值得注意的 是:在通道恢复,由于有受损通道的容量释放过程,实现可回复性是比较 困难的,代价较高,而可回复性恢复是非实时的,因此通过网管配合处理 应当更适宜。 四、结束语 本文从可实现的角度对现有的一类基于数字交叉连接设备的分布式网 络恢复协议进行了详细的分析,提出其中存在的一些问题,并给出了一些 可能的解决方案。因此也应当看到,分布式的网络恢复协议是不够成熟的, 需作进一步的研究。相对而言,集中式网络恢复和混合的网络恢复协议是 能够在实际中首先得到应用,但是在具体采用这两类网络恢复方案时,需 作进一步的考虑,例如集中式网络恢复协议需考虑更高的恢复效率以及更 好地与网络规范和网络管理相协调。
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50