张广明 中科院计算所
张广明 中科院计算所研究员,中国电源协会副理事长兼交流稳定电源专委会主任委员。
摘要 UPS是供电系统的核心环节,可靠性是当前UPS供电系统的主要矛盾,本文列述了UPS及以其为核心的供电系统的技术现状和存在的问题,并在此基础上论述了提高系统可用性的理论和相应的措施。
关键词 UPS 供电系统 可用性
1 引言
UPS(不停电供电系统)及以它为核心的供电系统被设置在市电电网与负载设备之间,目的是改善对负载的供电质量,并在市电故障时,保证负载设备的正常运行。市电电网容量的不足,输变电和配电设备的质量问题,各用户负载设备配置的不合理性,设备之间的相互影响,以及供电系统中各类非线性负载的增加,电力电子变流装置的广泛应用等因素,使配电系统终端的供电质量不断恶化。如市电电压的升高、降低和断电、闪变浪涌以及尖峰脉冲干扰等问题,还有意外的自然或人为的事故,如地震、雷击、输变电系统因人为原因造成断路或短路等,都会危害电力的正常供应,从而影响负载设备的正常运行。使一些对供电质量敏感的重要负载设备的性能降低,寿命减少,业务中断,造成重大的经济损失。一个企业电子商务的中断意味着:严重影响机构声誉、降低办事机构的办事效率、信息沟通发生障碍;在现代化的医院中,抢救监护病人主要依靠电子监测仪器,而电源的事故会造成生命的危险;一个工业流程控制系统中断意味着:生产中断、 在制品报废、设备损坏,如果产品有市场期限的话,如像经营一份过期的日报,其经济损失是可想而知的;一个金融服务部门的业务中断意味着:造成金融秩序陷入混乱状况,用户的利益受到损失、 金钱的损失、信誉的丧失;宕机对网络系统的影响:一个网站宕机,一个潜在的用户在8s内离开、一个路由器宕机,局域网上可能有几百个用户无法工作;一个光钎室宕机,可能有几千个用户断开网络连接。
UPS是为了解决供电系统存在的问题应运而生的,它的产生至今已经历了40多年的历程,在这个慢长的过程中,UPS设备的技术水平和功能在不断的变化着,近年来,随着半导体工业、电子电路技术和网络技术的迅猛发展,UPS设备技术本身也在不断的进步和改善着。在UPS设备中,由于采用了以微处理器为核心的数字信号处理(DSP)技术、高速网络通讯及高可靠的CAN 网络技术为代表的软件可编程技术,以及Delta变换电路结构、输入功率因数校正(PFC)技术、智能化故障自诊断技术、智能化电池充放电管理和电池性能预测技术、远程网管型UPS监控技术、图型化输出的人-机对话型菜单操作的液晶显示技术等为代表的UPS设备新技术新工艺的开发和应用,使得当今UPS设备无论是在输出容量上,还是在基本性能、智能化管理和可靠性、可维护性和可管理性上,都获得了长足的发展和进步。如今它已经不是一个简单的电网停电后可以继续维持向负载供电的设备,它还肩负着全面改善供电质量,并通过智能管理、智能监控和网络通讯实现对整体电力基础实施的保护,成为一个有强大管理功能的信息技术设备,已经完全熔融于企业信息系统,并成为其中不可缺少的一部分。
从应用的角度看,UPS功能的变化经历了三个阶段,如图1所示。
第一阶段:市电掉电时,保护负载硬件设备;
第二阶段:市电掉电时,保护负载设备运行的数据;
第三阶段:在市电正常和掉电等各种情况下,保证供电系统正常运行。
第三个阶段从20世纪90年代中期开始变得愈来愈重要,随着信息技术的高速发展和网络时代的到来,对以UPS为核心的整个供电系统的可用性、可维护性、可管理性和可扩展性也提出了越来越高的要求,越来越多的厂商和用户已经形成这样的共识:在UPS各种性能指标基本满足计算机网络设备供电要求的情况下,真正能为客户带来价值的是系统的可用性。用户关心的重点开始从仅仅强调UPS本身由设计和制造决定的可靠性,转移到由整个供电系统和服务决定的可用性上来。实际应用中的需要不仅是产生UPS设备的原因,同时它还规定着UPS技术进一步发展的方向,成为UPS技术发展的动力。本文将从UPS技术和应用的现状谈谈UPS技术以及以它为核心的供电系统的发展趋势,并就当前使用中存在的问题谈谈如何设计配置一个高可用的UPS供电系统,如何正确选用、配置和使用UPS设备。
2 UPS技术与应用的现状和问题
UPS设备的产生和发展都是由应用的需要决定的,所以认真考察一下当前UPS技术与应用的现状和存在的问题,对研究和确定它的技术发展方向,以及进一部提高应用水平是有必要的。下面通过对我国UPS技术和应用的市场调查,总结出以下十个方面的基本情况和问题:
(1)使用UPS以便提高供电系统的可用性的观念已被绝大部分用户接受,特别是在20世纪90年代中期以后,在国民经济各个领域和部门新建和改建的供电系统中,可谓言者必称UPS,说明广大用户对UPS供电系统对提高供电质量的重要性已经有足够的重视,预示着我国UPS市场已趋于成熟。
(2)从对已经配置了UPS系统的运行情况和存在问题的调查,说明当前各个厂家生产的各种型号规格的UPS的输出电性能指标基本上都能满足对负载供电的要求。也就是说UPS的各项输出电性能指标,诸如输出稳压精度、波形失真度、三相电压平衡度、三相负载不平衡度、输出电压切换时间、输出动态响应特性、输出功率因数、频率稳定度等多项指标,已经不再是影响负载正常运行的因素,自然也就不再是购置时衡量各种型号UPS性能优劣的主要标准了。
(3)供电系统的故障还是要发生的,这是个不争的事实。用户特别是运维人员感到,安全性和可靠性是当前UPS供电系统最主要的问题。因此,设计者在设计供电系统时,普遍对UPS采用了冗余热备份配置,在选购UPS设备时,也把注意力从对UPS一般输出电性能指标转移到对输出能力、可靠性和对电网环境适应能力等指标的考察上来,诸如工作效率、允许输入电网电压幅值变化范围、输入功率因数、输入电流谐波成分、带非线性负载的能力(限定的负载功率因数)、输出电流峰值系数、过载能力,以及各种保护功能等;
(4)通过对供电系统故障情况的调查和分析发现,在系统故障中直接因为UPS设备的质量问题引起的占少数,而事故总数中的50—70%是由于配电系统中其它环节和设备的质量问题、安装问题、人为操作和维护问题引起的,或者由于这些问题而诱发UPS产生误动作乃至发生故障。由此可得出这样的结论:UPS设备仅仅是涉及供电系统可靠性问题的因素之一,也就是说,仅仅提高UPS设备的可靠性,是不能从根本上解决整个供电系统的安全性和可靠性的;
(5)用户特别是运维人员感到最困惑的事是,供电系统故障后,由于系统过于复杂、产品供应商反应速度、维修人员的技术水平和工作经验、备件储备和提供情况、故障原因的查找和分析,还包括系统中各种设备供应厂商之间的互相推诿等原因,使系统得不到及时迅速地修复,甚至找不到引发故障真正原因的结论。从可靠性科学角度讲,这是系统的“可用性”问题。“可用性”的物理概念是:在规定的使用期间内,系统的正常运行时间与整个时间的比例。要提高系统的“可用性”,提高系统的平均无故障时间MTBF是有效的,但降低系统的平均修复时间MTTR更有效,也就是说,系统可以发生故障,但只要很快修复(例如几十分钟),“可用性”仍然可达到很高的水平,故障的损失就不会很大。UPS厂商和用户都认识到,“可用性”才是最有价值的也是最终的可靠性指标。
(6)从已安装使用的UPS供电系统的使用维护情况来看,UPS已经具备的智能管理和通讯功能没有得到充分的发挥。当今的UPS已经从原来所谓的独立电源设备发展成今天具有多种通讯方式管理和与IT系统无缝连接的网络UPS。它拥有管理自己的软件,可支持现行绝大部分的服务器操作系统安全关机。UPS经过自身的外设附件和通讯方式的扩展与完善,已经完全把自已变成了有强大管理功能的信息技术设备,已经完全熔融于企业信息系统,并成为了其中不可缺少的一部分。UPS可为用户提供多种管理方式,由此而带来的易管理、易操作、易集成等优点,可使系统管理员从繁重的传统管理方式中解脱出来。通过UPS的软件及附件的安装和配置,真正做到无人值守,高度自动化。市电故障时,UPS关机软件自动启动,执行服务器安全关机,把服务器的全部数据存入硬盘,关闭服务器,最后关闭UPS,同时还会通过各种通讯方式通知用户,如E-mail,呼机,短信等。但是在实际的运行维护中,权威人士的估计对UPS的智能通讯功能的应用率大概只有20%。究其原因,一则厂商,二则用户,三则中间环节。但最重要最关键的原因是用户,应用中的需要才是技术发展和推广使用的根本动力。用户处在不同行业和专业,本身又有不同的经历,为此接受新鲜事物的能力和机会也不同,而且中国的信息技术发展很不平衡,有高有低,发展时间也不长,由此决定其UPS管理技术的应用水平相对不高。
(7)通过对多个UPS供电系统的调查,发现很多已经在运行的特别是在原系统基础上改造的UPS供电系统在设计上不规范,系统配置不尽合理,存在着诸多隐患。诸如:
① 系统中所有设备和环节都是串连的,形成多个单路径故障点;
② 系统中各相接的设备输入输出阻抗不匹配,相互影响或者不得不降容使用;
③ 系统中因配置了输入谐波电流大和启动冲击电流大的设备,不仅污染电网,而首先是在系统内部形成严重的相互干扰;
④ 系统中电力传输线(包括数据传输线)过长和布局零乱而易产生干扰和发生人为事故;
⑤ 系统中各种设备供应商过多,品牌杂乱,给安装维护和故障后修复带来困难;
⑥ 系统中配置了大量的断路器,或者因为质量问题,或者因为保护电流动作值不准确,或者因为容量和时间前后级配置不合理(容量应大带小,时间应慢带快),使系统发生不明的故障,或者局部负载故障造成大面积停电;
⑦ 系统中零地电压差过大,究其原因有电网进线本身已存在零地电压差,或着系统接地系统不符合标准,或者系统中谐波电流大地线长而截面小等;
⑧ 有的系统中配置有漏电保护器和继电保护器等对电压波动和电流谐波干扰敏感的器件,当电网电压波动、系统中谐波电流大、设备启动产生电流冲击、负载局部故障等现象时,都可能引起这种器件动作而使系统停电。
以上这些现象都是造成系统故障的直接因素。
(8)采购配置UPS设备时的错误观念和误导。由于大多数用户是第一次在供电系统中配置UPS设备,对UPS的特性和功能了解得不够全面,因而在选购时存在着错误观念和误导,表现在以下几个方面:
① 确定选用UPS的性能标准时,不是从UPS的输出电性能指标、输出能力和可靠性指标、对电网的适应能力、系统配置能力、智能管理和通讯功能、可维护性和可扩充性等方面对其进行全面的考察,而是脱离负载的实际需要特意追求某些性能的高指标,特别是把厂家宣传的产品能达到的最高指标做为自己选用的标准;
② 过分追求UPS常规输出指标的高标准。这样做没有必要的原因有两点,一是计算机类的负载的输入端都是脉宽调制开关电源,对输入交流电的要求是不高的。二是UPS任何输出指标的提高都是要以付出提高成本和降低可靠性为代价的;
③ 简单地以UPS电路结构形式定优劣。任何结构形式的UPS都不可能是十全十美的。当前市场上所以有多种形式的UPS共存,说明各种结构形式的UPS都有其存在的条件和市场。特别是在什么是在线式UPS这个问题上,存在着以偏概全、以点代面的误解。所谓在线式,是对UPS功能的一种定义,从工作原理看,在线式UPS的逆变器和控制单元随时都在监视并参与对输出电压的调整,从效果看,当市电掉电时,UPS输出电压的切换时间为零。当然,高性能的输出指标和双向抗干扰能力也是在线式UPS特有的特征;
④ 忽视UPS对电网的适应能力和电力污染问题。就当前UPS销售和使用情况来看,最值得注意的是输入功率因数和电流谐波成份。特别是大功率UPS,尤以输入端有整流滤波器的UPS最为严重。要知道它的谐波电流不仅污染电网,而首先受到污染的是系统本身。再者,由于它的输入功率因数低,输入无功功率大,要求系统配电容量和系统中其他设备的功率容量都要增大50%;
⑤ 应重视对UPS输出能力和可靠性的考察。这里讲的可靠性指的是UPS整机连续无故障工作的能力。UPS的输出能力指标包括输出过载能力,输出电流峰值系数,输出电流浪涌系数(主要发生在启动负载时),限定的输出负载功率因数,三相负载不平衡能力等。UPS对这些指标做出规定,说明UPS输出能力是有局限的,同真实的电网能力相比,是UPS输出能力的不足的表现。在UPS的可靠性指标MTBF不可信和不能考察的情况下,可用工作效率和输出能力各项指标去考察它的可靠性,效率和输出能力各项指标实际上是UPS可靠性的量化指标;
(9)提高使用维护水平与提高UPS技术水平同等重要。有关使用部门和厂商曾对UPS系统的故障原因做过统计,其结果是在UPS供电系统故障的起因中,人为原因造成的故障占很大的比例。人为故障的原因可归结为维护人员对配置的UPS的基本性能了解不够、对UPS监测监控信息和显示功能不熟悉、对UPS运行时的常规维护要求执行不严格等。人为故障表现在以下几点:怀疑故障、知识和经验性故障、操作故障、延时故障、交接故障等。当然,也还有供电系统造成的环境故障,和选用配置UPS时的选型不当。具体讲,有的是对监测信息和面板指示的定义不清楚而误以为故障,并造成人为停机维护;有的是对UPS电性能指标的物理含义不清楚,认为UPS工作不正常而人为停机;有的是接线错误,三相进线相序错,电池极性错,接线节点不牢等造成故障停机;机器已经给出故障予警信号,维护人员不能及时处理而导致故障停机;边供电,边做机房施工,造成人为或物理原因故障;长期不维护,机器中积满灰尘,当湿度过大时引起机器故障等;
(10)边成长边投资的要求—生命周期成本问题。这类问题一般是UPS用户方面的高级决人员、财务管理人员首先关心的问题。UPS系统的购置通常被视为固定资产的投资行为,所以长期及短期的投资回报率和投资风险是人们首先考虑的问题,包括:
① 预算投资和可用空间造成UPS容量的浪费,能否做到“边成长边投资?”通常情况下,用户在设计采购方案时,为了适应业务发展的终期目标,多采用一次到位的方式来采购UPS。而调查发现用户的设计容量、用户负载设备的预计负荷量及用电设备的实际负荷量之间存在着很大差异。平均来看,在首次装机时,预计负荷量只是设计容量的30%,而实际负荷量又只是预计负荷量的30%。换句话说,在最初装机运行时UPS的实际带载量仅为百分之九左右。在第五年时预计负载量增加到设计容量的80%左右,而实际负载量只达到设计容量的28%。用户在UPS容量上的投资,70%以上被闲置浪费了。
② 安装速度问题:市场瞬息万变,对于企业来讲“快”是生存之道。构建一个数据中心,不仅电源系统的各个部件存在着交货周期问题,而且方案设计、系统安装等也需要时间。大型UPS系统、柴油发电机、大型开关设备等需要很长的交货周期,客户必须提前六个月购买这些系统和设备,其中的中间环节中稍有差迟,用户的起用时间就会被推迟,极端情况下甚至出现了用户启动设备时,市场已经变化,最初的设计方案已经彻底过时的情况。尤其是在近年来IT行业的萧条时期,有些客户提前六个月购买拟建中的数据中心,六个月后他们才发现到了一个进退两难的境地。因为他们的项目已经因为后期资金的限制而被迫取消或缩减了规模,他们被这些定购的设备困住了。一般情况下,因系统的进度及可用性要求的不同,数据中心的实际建设时间一般要三个月到十八个月之间不等。客户希望能够缩短从做出决定进行修建,到实际建成并投入运行之间的时间。
③ 投资风险问题:针对UPS系统的投资,可否有灵活的退出策略?变幻莫测的市场环境,使所有企业的决策者对未来的业务的不确定性感到不安。这种对未来业务的不可知性,直接导致了对IT设备及电力基础设施的投资的风险性。目前的电力基础设施需要大量投资,但没有可变通及灵活的退出策略。许多客户都在试图寻求能够在环境和要求变化(指业务量的扩大和缩小、负载功率容量的变化、负载性质的变化等)时,以及项目启动失败或者办公地点搬迁时提供简单、灵活而经济的可扩展、可变更和可退出策略的技术。
二 UPS及高可用供电系统
上面提出的当前UPS及其供电系统存在的10个问题,是UPS供电设计者,特别是厂商必须面对的实际问题,从某种意义上讲,它即向UPS厂商,也向供电系统设计和使用维护人员提出了更高的要求,从而也就规定了UPS性能的改进和技术进步的方向。10个问题的核心是UPS及其供电系统的可用性问题。广义上讲,我们把“可用性”既看做是系统的可靠性指标,同时也含盖了设备和系统的“可维护性”、“可管理性”和灵活的“可扩展性”。下面我们就针对这10个问题,讲一下如何实现UPS及其供电系统的高可用性。
(1)可靠性指标与可用性的定义
做为一门科学的可靠性,其研究工作已经历了数十载,走过了不同的阶段。最早的可靠性研究工作始于20世纪30年代工业时代的相依性研究,按时间顺序有代表性的研究工作有对滚珠轴承可靠性研究,对电力系统可靠性的研究,对空中运输和对航天技术可靠性的研究。描述可靠性的典型参数有失效率、可靠度、平均无故障时间、平均维护时间和可用性。这些参数的定义和表示方法如下:
失效率 :将单位时间内损坏的元件数量与在该瞬间内工作元件总数之比作为表示在该瞬间内元件可靠性程度的数值。也可以说成是,在单位时间内的故障数相对于依然正常工作的元件数的比值,此值称为故障“强度”,或失效率,以λ(t)表式:
即:λ(t)=(1/ns)·dn/dt
式中:ns—试验开始时正常工作的样品数;
n—在运行(t1-t2)时间间隔内出现故障的样品数;
可靠度:系统在规定环境条件下和规定时间内,完成规定功能的概率。也可以解释为:时间o-t的可靠度就是假定在时刻0时处于已修复状态的情况下,从时刻0到时刻t的间隔内不发生故障的概率。例如:对N个产品进行试验,每经过△t的时间间隔检查一次,每次出故障的产品数为ni,则在T时间内的可靠度R(t)为:
可靠度与失效率的关系是:
平均无故障时间MTBF:电子系统无故障工作时间的平均值。是设备可靠工作时间的分布率,所以平均无故障工作时间MTBF表示为:
平均无故障时间与失效率的关系是:
平均维护时间MTTR:系统在故障维修过程中,每次修复时间的平均值。即:
可用性:电子系统在使用过程中(尤其在不间断连续使用条件下)可以正常使用的时间和总时间的比例,它可用平均无故障时间MTBF和平均维修时间MTTR表示,即
(2) 可靠性MTBF与可用性A的关系
在UPS设备的可靠性指标中,大家习惯于用设备的MTBF表示,它可以用理论计算法、试验验证法和故障率统计法等三种方法得出。它与可用性的根本区别在于,可靠性MTBF是在规定的时间段内,系统正常运行(不发生故障)的概率,在概念上它不包括系统是否可修复和修复时间的大小。一个高可靠的UPS(例如MTBF=20万小时,22年)可能在装机后一周内就发生故障,造成系统宕机,修复后可能一周后又发生故障。而可用性含盖了可靠性和可维护性两个概念,当系统可维护时,可用性 >可靠性,当系统不可维护时,可用性=可靠性。实际上对一个需要长期连续工作而又不可修复的系统而言,可用性和可靠性也就都没有实际意义了。
(3)系统可用性的科学论述
十世纪四十年代,在可靠性分析方面实现了一些最重要的突破:德国火箭科学家Von Braun 在V1导弹项目中创建了最早的预测可靠性模型。导弹的开发是基于“链的强度取决于最弱的一环”的概念,其策略是找到薄弱环节,然后加强这些环节。但是测试结果却显示故障出现在系统内的各个部分,甚至比较强的环节有时候也会发生故障。于是,科学家们又转向了另一个设想:事实上,可靠性不仅仅是最弱的环节,而是所有部件平均可靠性的函数。但是接下来的测试表明,这也不是最佳方案。接二连三的失败使科学家们将求助的日光投向了从事串联系统可靠性研究工作的数学家Erich Pieruschka。后来,应用Pieruschka对串联系统的解答得出了有关产品可靠性的Lusser定律,具体表述如下:
RS=R1×R2×R3×……Rn
也就是说,一个串联系统的可靠性即是该系统所连接的子系统的可靠性。因此系统的可靠性要远远低于其任何单个组件的可靠性。
(4)提高UPS设备的可用性
根据可用性的定义,要提高一个系统的可用性,无外乎提高系统中设备的平均无故障时间MTBF和降低设备的平均修复时间MTTR。
提高UPS设备本身的MTBF值的传统做法是:提高功率器件的规格和档次(IGBT等);改进控制技术,提高逻辑控制组件规格和档次(CPU,DSP等);采用更先进的主电路结构(Delta变换技术,高频整流技术);提高智能管理和通讯功能;严格生产工艺,加强质量管理(ISO9000)。这些方法自然是有效的,但是当MTBF值提高到一定程度后,效果就不明显了(见图3)。根据Lusser定律,组成UPS主机的数百个元器件和上千个接点,在可靠性等效图上是串连的,整个系统的可用性是这数百个元器件和上千个接点可靠性的乘积,在提高这样一个复杂的设备的MTBF值时,实际上是依据了“最薄弱环节”理论,当薄弱环节(例如逆变器)的可靠性已经很高时, 再做努力,即便是提高到1.0,根据可靠性的第二个科学论述,对整机MTBF值的提高也是无及于事的。更何况MTBF值与可用性A的关系(图3)是一条非线性曲线,当MTBF值较小时(例如<15万小时),提高MTBF值对提高可用性A(降低不可用性1-A)尚有较明显的作用,而当MTBF值>20万小时后,其作用就不明显了。
用降低MTTR的方法则不同,其效果是非常明显的。
① 为了降低故障修复时间,一般的做法是加强对设备特别是关键设备和部件(薄弱环节)的维护;备足备件并保证其完好性;加强对维护人员操作技能的培训。特别是用户在采购设备时就要求厂家对售后服务(包括备件提供、反应时间和修复速度)条件做出严格的承诺。
② UPS的模块化+冗余配置:把整个UPS按电路功能分成几部分,并在结构上设计成可插拔的模块,例如功率模块(包括AC/DC和DC/AC变换器)、电池模块、智能管理和通讯功能模块,如图2所示,这是美国APC公司的一款Symmetra高可用阵列机,以16KVA规格的为例,功率模块本身就是一台除电池以外的完整的UPS,每个模块额定输出功率4KVA,每台可装5个,直接并机均流运行,最大输出能力20KVA,额定带载16KVA,当其中一个模块障时,由其它4个模块继续维持向负载正常供电,故障的模块可热插拔更换。智能管理和通讯功能模块有主备两个,主模块故障时,备用模块接替,主模块可热插拔更换。电池模块与功率模块数量相同,同样有并联和热插拔更换功能。从可用性的角度看,故障修复工作仅仅是拔插模块,在有备件的情况下,修复时间可控制在几十分钟以内,况且各种模块都是冗余热备份的,所以整机等效的平均修复时间MTTR可接近于零。
③ UPS设备的冗余并机配置:在一台电子设备中,我们可以把控制电路集中起来做为一个独立的可插拔的模块,也可以把功率变换部分集中在一个结构中做为一个可热插拔的模块,同样,在一个配置有多种(台)设备的供电系统中,我们也可以把每种(台)设备看做一个模块,在冗余热备份配置的情况下,同样可以做到故障后热插拔修复。当代的技术先进的UPS都具备直接并机功能,如果把这样的UPS两台冗余并联起来,并使两台输出的总容量≧负载容量的二倍,当其中一台发生故障时,另一台可承担全部负载容量而保持系统继续正常运行,已故障的一台可脱机修复。这无异于把系统的等效平均修复时间降到接近于零,只有两台UPS同时发生故障时,系统才宕机,而这种几率是很小的。实际上这相当于UPS整机的模块化+冗余配置。
图3 平均无故障时间MTBF以及平均修复时间MTTR与不可用性(1-A)的关系
图3 是平均无故障时间MTBF以及平均修复时间MTTR与不可用性(1-A)的关系,从图中曲线可以看出:MTBF与不可用性(1-A)并非线性关系,在MTBF值较小(例如<15万小时),MTBF值的变化对不可用性(1-A)的影响较大,而且修复时间MTTR愈大,其影响愈明显。但是在MTBF较大时,曲线趋于平坦,再提高MTBF值对系统可用性的提高就没有多大意义了。同时我们还注意到,在平均修复时间MTTR较大的情况下,MTBF值的提高对系统可用性的提高是有限度的,例如当MTTR=4小时,即使MTBF值高达30万小时,可用性也仅仅达到99.998%。而如果通过模块化冗余热备份配置把MTTR值降到10分钟后,即使MTBF值只有10万小时,系统可用性A也可以提高到99.9998%,MTBF为30万小时,可达到99.9999%。
(4) “集成化”设计提高整个UPS供电系统的可用性
组成一个完整的供电系统,除UPS设备外,还有输入配电柜、ATS转换开关、变压器、瞬态电压浪涌抑制器、负载配电开关柜、柴油发电机、交流稳压器、电池系统、各种开关、断路器、保险、转插,上百乃至几百个级连接点和相应的传输线。对于一复杂的供电系统如何提高其可用性呢?仅仅解决UPS设备的可靠性显然是不够的,何况系统的实际运行的故障数据表明,直接由于UPS故障引起系统宕机的比例毕竟是较少的,由于系统中其它设备和环节以及人为事故造成的故障,或者由此引发的UPS故障占大多数。但是模块化、冗余配置、热插拔修复等设计原则还是适用的。当然,系统中各种设备和管理的标准化、统一化和集中化,减少单路经故障点和大面积掉电的隐患,加快建设速度和安装的规范化、对环境和负载变化的适应性和系统的可扩展性、降低维护管理的难度和减少人为事故的几率等问题,也是要着重研究和解决的重点。为此美国APC公司提出了UPS供电系统“集成化”设计理念,并推出了相应的产品“InfraStruXure”
图4 集成化UPS供电系统示意图
图4是集成化UPS供电系统示意图,虚线框内是集成化所包含的内容,集成化的基本设想和原则是:
供电设备制造和供应的统一化和标准化;系统中供电设备和包括负载机架结构的一体化和连接的规范化;系统中各供电设备和环节(包括负载机架中的PDU)电源状态管理的集中化;系统中各供电设备和环节结构的模块化和连接的热插拔功能。图4集成化UPS系统的特点如下:
由单机模块化+冗余的UPS系统组成双总线系统 ,是可用性等级最高的UPS供电系统 ;
② UPS供电系统与数据中心一体化机架式结构,整个系统只有电网进线为外接线;
③ PDU作为基本组合的一个子系统,直接配置在标准的负载机架中;
④ 该系统结构的基本组合给机柜上的服务器提供了整套基础设施。这种基础设施包括 IT 机柜中的冷却设施、布线设施和配电设施。基础组件包含在4个子系统中:IT机柜、机架安装PDU、环境监控以及电源和数据电缆布线;
⑤ 标准机架结构为电力和数据走线增加了170mm(8 inch)的空间走线槽。并在机柜侧面、顶部和底部采用了大“过孔”来进行电缆的走线;
⑥机柜顶部和底部有两个传感器组成环境监测系统,可显示机架温度和湿度.并对其进行动态管理。
图5是“InfraStruXure”现场安装图,中间6个机架安装的是负载设备。相对现在传统的供电系统,有利于解决当前数据中心机房迫切需要解决的以下问题
① 有效的利用机房空间,降低运营成本;
②降低供电系统的复杂性,加快建设速度(无工具装配),降低服务费用;系统基础设施标准化、组件化,便于组装、改装、搬运和重装,机动灵活,因此,可降低设计的复杂性、资源配备上的风险和简化现场施工的工程量;
④ 能适应不断变化的需要,包括功率密度的变化、重量密度不同、安装要求不同、单电源设备与双电源设备的不同要求、交流设备与直流设备的不同要求等,可边成长边投资,提高供电设备利用率,降低投资风险;减少了系统中的断路器和转接接点数目,把故障点减至最少,可有效的防止大面积断电事件的发生;
⑥ 系统和设备结构集成化,减少维护工作量,可有效地减少人为原因故障;
⑦ 系统和设备结构集成化,线路传输短且规范,提高了系统抗干扰能力和供电质量;
⑧ 功能齐全的集中智能管理和直观的指示,可管理性强,有预测故障的功能;
⑨ 可改变以往那种数据电缆和电力电缆(越来越严重)的混乱状况;
⑩ 备件的标准化、减少带电操作、维护的简单化,以及可热插拔模块化等,都有利于降低平均维护时间MTTR ,系统可用性可达到7个9。
----《电信工程技术与标准化》
|