浅析通信系统电源设备的可靠性
发布时间:2006-10-14 7:50:56   收集提供:gaoqian
  中国联通沈阳分公司 翟玉杰

  在通信系统的运行维护中,我们经常会涉及到网络设备的可靠性问题,尤其是电源设备的可靠性问题比较突出,如:某某基站开关电源总出问题,基站电源环境监控总有上传告警等等,然而我们的运维力量总是有限的,基站分布毕竟较广,如果基站电源设备的故障率高,就不可避免地发生顾东顾不了西、无法及时处理现象,移动网络的信誉和经济效益势必受到严重影响。交换局电源设备对通信网络的影响更是一刻千金。要保证全网通信的可靠性就必须在电源设备的设计、选购、验收、维护中要紧紧围绕可靠性这一关键课题,树立可靠性是通信网络生命线的思想,时刻牢记可靠性是质量的更高要求和综合体现,为提高系统可靠性而做好各项专业工作。

  一、减少设备的早期失效

  瞬时失效率λ(t)是单位时间内设备的失效数占该时间段开始时正常工作设备总数的比值。它反映的是设备发生失效的相对速率即故障瞬时强度。一般电子设备的失效率λ(t)都遵循浴盆曲线规律,如图1所示。



图1一般电子设备的失效率λ(t)的曲线规律


  图1中的故障率λ(t)曲线按照失效率的变化情况明显地分为三段:早期失效期、偶然失效期、损耗失效期。

  早期失效发生在设备开始工作之初,失效率λ(t)随使用时间的增加而迅速下降,主要对应于设备的设计和制造的质量缺陷。故障内容可分为:不能工作、工作不稳定、功能劣化及其它异常现象。具体表现如:开关电源模块的交流输入滤波电容耐压不合格、机内元件安装绝缘不良等等,造成开机瞬间损坏;交流接触器线圈发热、信号转接电路板辅助电源、缺少液晶显示屏的对比度低温补偿电路、熔丝状态检测电路设计不合理、温度补偿电路误差偏大等等造成设备工作一段时间后出现才发生故障或者误告警。解决设备早期失效率高的关键在于严格操作规程,加强对原材料、半成品以及外购件的检验和质量控制,进行工艺筛选和老化试验,及时处理设备的质量反馈意见,找出产生故障的根本原因,及时解决。处理设备出现的故障时不能单纯更换备件、简单解决了事,应该分析故障原因,如果是元件质量、电路设计、软件设计方面的问题,则必须重新确认其他设备是否也存在同样的隐患,一般来说只要在一年内出现完全相同的故障就应该引起注意,认真分析故障原因。对所购买的设备进行出厂前检验也有助于保证设备的可靠性,厂验可从产品设计、元件筛选、工艺检测老化试验等多方面进行审核、验收,尤其对于小规模企业和新产品防止产生低级错误非常有效。我们在订货中合理地确定交货期,是保证设备可靠性的基本条件。我们一般都希望到货越快越好,但是从投料到产品出厂,不仅需要经过正常的生产周期以外,产品的最终质量检验和老化处理也是必不可少的,脱离实际地缩短交货期,必然影响产品可靠性。辽宁联通三期工程的一家开关电源供应商,承诺一个月内的交货期,结果发生这批产品安装后多数一上电就发生滤波电容爆炸,可想而知,这批产品出厂前肯定没有充分进行上电老化实验。

  二、只有提高可靠性指标,才能够减少电源设备的故障率和维护量

  电源设备的早期问题经过处理和更换后失效率λ(t)逐渐下降,趋于稳定,进入偶然失效期阶段。其特点是失效发生是随机的,失效率近似为常数,是设备的可靠工作时期,相当于设备的最佳状态期,所以把设备的使用寿命主要取决于这一阶段的时间。我们假设设备失效率λ(t)在这一阶段为常数λ,则。按照YD-T1051-2000《通信局(站)电源系统总技术要求》对高频开关电源的平均失效间隔时间(MTBF)应≤5×104h的规定, ,MTBF=1×105小时 和MTBF=5×104小时的设备在不同时间段内的相对故障发生的概率计算如表1所示。



  可见MTBF=1×105小时和MTBF=5×104小时的瞬时故障率相差一倍,即我们的维护量相差一倍,所以选购设备时应以MTBF为主要质量考核指标。

  我们把设备的不失效频率定义为:可靠度,它是某一时刻正常工作的设备数量与设备总数的比值因为在偶然失效期阶段λ(t)=λ(常数),电源设备的寿命一般遵循指数分布,即:

  我们把MTBF=1×105小时和MTBF=5×104小时的设备在不同时间段内的可靠度计算如表2所示。



  从表2中不难看出设备的可靠性随着运行时间的增加,呈指数降低。在设备运行的中后期,MTBF对设备的可靠性影响较大。无论对单台设备还是整批设备的运行可靠性我们应该参考上表,越到设备运行后期越应加强设备维护检查,做到及时发现故障,及时解决故障,采取人工方式尽量提高设备的可靠性。

  损失失效期出现在产品的使用后期,其特点是失效率随时间的增加而上升,耗损失效是由于设备中的某些元件已经老化,过度的磨损、疲劳、寿命衰竭,因而失效率上升。

  三、选用优质产品,加强检验,提高设备的可靠性

  电源设备与许多现代工业产品一样,都是由成千上万种元件、器件组成的,有的甚至还包括软件,只要其中一个元件,一个环节出现问题,就可能影响整个设备工作,设备的使用条件和环境也千变万化,在设备的工作过程中,能否保持设备原有的性能而不发生故障,即工作可靠、经久耐用,这就是对设备质量进一步要求而提出的可靠性问题。可靠性管理是不同于生产质量管理,我们往往只注意比较产品的性能、外观、工艺质量等等,没有明确提出可靠性的指标,这样可能造成巨大的潜在损失。比如一台名牌的电视机可以正常使用十年以上,而一台普通杂牌电视机使用两年以后就出现故障,修来修去,耗工费时,其成本不知不觉地加大。可靠性相差悬殊,其价格和成本也明显不同,可靠性的提高必然伴随着设备成本的提高,一些国际知名的企业都在不惜重金聘用可靠性工程师,在产品的可靠性改进中不断增加投入,所以在市场竞争中,其产品的可靠性发挥着巨大威力。国内一些小的开关电源生产厂为了争夺市场,价格非常诱人,服务态度更是以用户为上帝,但是其产品却经常发生通讯故障、误报警、二次下电误动作等等,甚至整批产品一上电就短路,这样的可靠性实在令人担心。

  要提高设备的可靠性必须在开发、设计、生产、使用、维护各个阶段,即产品寿命周期的全过程中进行控制和管理。初级设计阶段,就要求保证设备在给定的时间内以预期的成功概率进行正常工作,采取冗余、减额、热、稳定等设计方案。选用电阻、电容、二极管、VMOS功率管等电子元件时应考虑这些产品的性能在环境温度、老化程度、电压波动等各种外界条件影响下保持不变,选用满足上述要求的型号,并且在耐压、功率等参数的选择上预留安全裕量。在元件质量检测方面应加强可靠性老化筛选,在设备组装完成后应结合产品质量检验进行环境、市电条件的老化筛选和抽样寿命试验。还必须根据设备现场的故障反馈,找出影响设备可靠性的原因和隐患,加以根本解决。设备的可靠性直接影响着企业的声誉和经济效益,体现着企业的技术、生产、质量、服务的综合素质。所以应该选择信誉高、规模大的企业产品。另外设备的可靠性不是在设备购买使用后才能得出结论,根据YD/T282-2000《通信设备可靠性通用试验方法》,设备在出厂前可以根据订货合同进行可靠性验证。可以选择各种环境条件下的定时截尾实验,进行失效率和无故障时间的验收实验。

  四、优化电源系统的可靠性设计

  组成设备的各单元的可靠性从功能上可以分为串联系统、并联系统、备用冗余系统和串并联系统。

  1.串联系统的可靠性小于任一组件的可靠性

  串联系统比较常见,如开关电源的交流单元、整流模块、直流单元就组成了串联可靠性系统,如图2所示。



  系统总的可靠度为:

  =R1(t)·R2(t)···Rn-1(t)·Rn(t)

  由于串联系统的任何一个部分的可靠度R(t)都小于100%,即小于1,所以串联的部分越多,系统的总可靠度越小,所以减少系统串联成部分可以提高设备的可靠性,即结构简化就是可靠。



  2.并联冗余系统的可靠性大于任一组件的可靠性

  当一种设备的可靠性指标可能无法满足系统的要求时,我们可以采取并联系统、备用冗余系统来增加系统的可靠性。

  并联系统即设备并机热备份系统,其结构模型如图3。

  系统的总可靠度为:

  =1-(1-R2)·(1-R2)···(1-Rn-1)·(1-Rn)

  可见并联系统越多,系统的总可靠度越大,而且统的总可靠度大于任何一个分系统的可靠度。

  由于开关电源整流模块、UPS的内部串联组分较多,而且包含功率元件,如果采取单一工作方式,可靠性必然较低,我们采取N+1并联工作方式就很好地解决了这个问题。开关电源整流模块N+1并联工作就是把以最佳工作电流并联运行的整流模块数量再加上一个相同的冗余模块;UPS的N+1并联工作一般是采取二台相同UPS并联工作,平时每台UPS各负担50%的负荷容量,总负荷容量一般小于一台UPS的最大容量。

  3.备用系统关键在于可靠切换

  备用系统如图4,由完全独立的分系统并联组成,平时只有一个分系统工作,其余不参加工作,处于备用状态,当一个分系统发生故障时,需要用切换开关转换到其它分系统上去,保证系统正常输出。如交换局的交流保证供电系统由二路市电和固定式柴油发电机组成,平时我们只使用其中一路市电,当在用市电发生故障时,首先应切换到另一路市电,二路市电都发生故障时,则必须启动自备柴油发电机供电。这种系统中的备用分系统的可靠性最高,但是由于转换开关与备用设备是串联系统,所以转换开关直接影响系统的可靠性。如能解决故障检测和切投转换这个可靠性瓶颈,那么备用冗余系统的总可靠性将比并联系统高很多。

  转换开关有自动和手动两种工作方式,受各种外界因素的影响,我们往往采用手动切投转换。因此设立可靠的故障报警装置、实行先进运维管理方法对于提高系统的可靠性都是必不可少的。

  五、提高设备的使用和环境可靠性

  由于经济和产品本身的原因,设备的可靠性无法满足要求时,我们可以选择并机系统如:UPS、整流模块等;备用冗余系统的可靠性最高,但是必须保证可靠的切投转换,除了上述的方法外,制定科学的运行维护规程、加强技术培训、提高使用的可靠性;加强施工和配套设备管理,提高环境的可靠性都有助于提高设备的可靠性。

  1.使用可靠性就是能够保证设备使用寿命的合理的安装和操作维护方法,杜绝操作失误。例如基站空调的安装方式和使用方法,基站空调的主要作用是夏季制冷,考虑冬季气温较低我们东北地区一般选用热泵式空调,室外机如果安装在向阳的地方,那么夏季制冷时室外机的散热效果就不如安装在北侧的室外机,造成冷凝器温度高,内压大,势必增加压缩机的负荷,缩短空调的寿命。如果两台基站空调采取自动备份式工作,即:平时一台空调工作,一台空调备用,当基站室温升高超过设定标准时,两台空调一起工作,既能分担负荷,又能避免工作的空调发生故障时,造成基站室内温度骤升。及时检查维护设备也非常重要,常规项目如:检查轴承、加润滑油、定期更换易损件和材料等。

  2.提高环境可靠性就是加强市电和环境管理,就是当市电的变化范围超标或谐波超标时,必须配套交流净化稳压器。据有关资料显示:当环境温度升高10℃时,电子计算机的可靠性下降25%,因此保证设备环境温度、湿度、洁净度都在允许范围内,是保证设备可靠性和寿命的必要条件。

  可靠性贯穿于设备的设计、选购、验收、维护等各个环节中,我们只有一丝不苟地重视每一个环节的可靠性,才能保证整个通讯系统的可靠性,才能建立通讯企业生存和长期发展的基础。


----《通信世界》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50