王其英
一、UPS的应用回顾
UPS是伴随着计算机的出现而诞生的,从出生的那一刻起,就被视为数据的保护神。因为当时的数据输入程序相当复杂:首先将数据在纸带上穿孔,再将已穿孔的纸带通过光电机 输入到计算机。万一在计算机工作中断电,整个数据就会完全丢失,供电恢复后又必须重新将穿孔的纸带通过光电机把数据 输入到计算机。当时提出的要求就是,希望电源在市电断电后再能继续维持供电5s,将现场的运算结果保存到磁心存储器中。待市电恢复后 ,能接着原来的计算结果继续运行下去。随着半导体技术的出现与发展,晶体管化、集成电路化和微处理机化进了IT技术的发展。由于初期的计算机很贵重,人们在关注数据的同时也害怕由于硬件的失效而损坏数据。随着IT技术的发展和普及,信息的运算量和交换量越来越大,尤其是局域网、广域网和互联网的出现与普及,使得人与人之间的关系越来越离不开网络,而网络的灵魂就是数据。因此人们对数据的关注程度是始终如一的,如图1“关注数据”的平直线所示。但在数字爆炸时代的今天,如何关注数据的安全就成了关键。因此美国可用性研究中心在2002年就提出了用可用性指标来衡量对数据关注的程度,而且对可用性的要求与日俱增,如图1“关注业务可用性曲线”所示。
图1 用户对关注对象的变化示意图
在IT技术与规模迅速膨胀的今天,数据中心的发展一般是无法估计和控制的,金融、通信、石化、交通,等等,都在纷纷建立数据中心,但是一般对数据机房系统的用电量也无法精确估算。因此,不少用户也把眼光放在了供电产品对环境变化的适应性上,因为数据中心的扩容、搬家或在某一时期缩小规模的事是经常发生的,为了合理使用资金,所以这种要求也与日俱增,如图1中“关注产品对环境变化”的曲线所示。
上述这一切首先对供电提出的要求就是连续、平稳和无干扰,这个任务只有UPS才能够完成。即只有在保证供电质量的情况下才有可能实现数据可靠的运算和传输。但是这种认识并不是所有数据中心从事IT设备应用的主管者都很明确的。有些主管者只注重电源的有无而没有看到供电质量的重要性。因此一直到现在还有少数一些地方仍在直接用市电工作,由于紧急供电电源EPS的出现,有些IT设备应用的主管者甚至认为用EPS就可以了。因此就造成了在使用UPS上的一些误解。要知道EPS与UPS相比在供电质量上还是有一定差距的。图2示出了对一些数据中心服务器采用UPS的调查情况。从图中可以看出,仍有2%的服务器没有采用UPS保护。而采UPS集中保护和相对集中
图2 受访数据中心服务器采用UPS的情况
保护的服务器占了将近90%,这就代表了数据中心对UPS使用的主流方式。
二、当前UPS供电系统的容量利用情况
集中保护的UPS使用方式给用户带来了方便,也反映出一些问题。由于集中供电系统的容量不易精确估算,再加之缺乏经验和受当时的UPS产品规格所限,使设计带有很大的盲目性。图3给出了某数据中心10年供电容量规划图。在这个图中的预期负荷量如虚线所示,根据已往的经验和为了
图3 某数据中心10年供电容量规划图
保证供电有一定的富裕量,所以一般都打出了15%~20%的余量。这里用归一法,表示出了UPS安装容量的百分比为100%。照例说,这样的设计应该是无可挑剔的,但由于对容量的估算不准或在实施中改变了计划,致使在10年的应用中,整个实际负荷才为安装容量的1/3。而这种情况绝非个别现象,根据上述可用性研究中心对300余家用户的调查,绘制出了图4UPS容量利用百分比图。由图中
图4 UPS容量利用百分比图
可以看出,仅有不到3%的用户用到UPS容量的80%,5%的用户用到了70%,不到11%的用户用到了60%,70%以上用户的用电量都在50%以下,造成了很大的浪费。
三、当前UPS供电系统的运行状况
尽管UPS都在尽职尽责的保护着IT设备的正常运行,但故障也是很难避免。据统计,由于UPS本身的原因造成故障的比例不足30%,由于自然因素和人为的因素而造成故障的比例占全部故障数的60%~70%。其造成故障或貌似故障的原因可归纳如下几种。在这里把引起人们恐慌和惊动厂家的一切机器现象统称为“故障”
1. 怀疑“故障”。本来不是故障,由于怀疑是故障从而惊动主管领导和厂家,虽然是虚惊一场,但也人为地运用了真正故障的程序。
2. 知识性“故障”。此种情况的出现主要是由于有一些机器管理员自持经验丰富而实际是既缺乏基本理论知识又缺乏实践经验所致。
3. 操作故障。此类故障是由于未按正当程序操作而导致的故障。
4. 延误故障。 虽然随机文件或机器本身已经告警,由于值班员的疏忽而未及时发现与处理,由此而导致后来的故障。
5.维护不当或不及时导致的故障。对UPS的定期维护是必要的,但应有一套严格的管理程序。那些不按规定要求进行定期或不定期保养是导致机器故障的重要原因。
6. 经验故障。经验是不可缺少的,是不可多得的财富。但经验有其相对性,即在这种UPS上得到的经验不一定完全适合另一种,否则就会导致故障。
7. 交接故障。 这类故障主要是由于管理人员的前后配合不好造成的。
8.环境故障。这类故障是由于用户不重视机器的运行环境或没有能力优化环境造成。
9.选型故障。
主要是由于用电者的一些糊涂概念造成。比如把UPS的效率当成了功率因数、把输入功率因数当成了负载功率因数和把视在功率当成了有功功率等。不分情况的认为UPS负载功率因数越大越好,不懂得计算机之类的负载在目前不但需要有功功率更需要无功功率等。结果购回的UPS容量不是太大了就是太小了,选小了的UPS就会因频繁地过载而跳闸。
10.商务故障。这主要是由于用户对供应商在价格和其它条件上的过分苛求而不得不降低质量造成。
四、 UPS的发展趋势
1. UPS在技术方面的发展趋势
高频化、小型化、智能化、环保化和系统集成化。
X
2.UPS在应用方面的发展趋势
(1)从单机向冗余结构变化。
(2)从注重系统的可靠性向注重系统的可用性变化。
(3)从单纯供电系统向保证整个IT运行环境变化。
(4)提高UPS供电系统的“适应性”。
五、IT系统面临的几个问题
1.IT设备集中化。由于管理的集中,就要求IT设备也要集中管理。
2.IT设备机架化。这是一种集中化管理的结构方式。原来的服务器大都分散放置,为了集中,开始将服务器做成适用于19英寸标准机架的结构。
3.功率密度越来越高,配电问题和线缆管理问题变得复杂。将多台服务器集中于一个机架内势必增大了功率密度、增加了配电路数和使线缆大量增多,使管理变得非常困难。
4.热负荷密度越来越高,IT设备微环境的冷却问题。功率密度增加使机柜温度上升,线缆的大量增多堵塞了风道,使散热变得非常困难。
5.IT设备更新和扩容迅速,要求供电的UPS能随之变化。
由上述的几点可以看出一个问题,即现代的数据中心配置越来越复杂,带给用户的困难也越来越大。他们不但面对来自四面八方的供应商,而且还得具备各方面的知识,换言之,他们必须有一个由各方面“专家”组成的机构来应付这种局面。另一方面,数据中心的这些设备也来自四面八方,单个设备的可靠性和相互之间联结的可靠性都没有保障,如图5所示。
图5 多个孤立单元的拼凑组合示意图
从图中可以看出,一般数据中心机房由于是来自不同地域和不同厂家的设备,它们的性能一致性和连接紧密性都会存在着一定的“缝隙”。整个系统的可靠性取决于系统中最薄弱的环节,而且各环节都有可能成为最薄弱的那一个。环节越多这种可能性就越大,换言之,可靠性也就越低。
六、可用性的提出和数据中心功能范围的划分
当代数据中心关心的已不单单是系统运行的可靠性,而更关心在指定时间内正常运行的时间比例,这就是可用性。其表达式如下所示。
式中: A为可用性,是一个小于1的小数。
MTBF为平均无故障时间,是可靠性指标,用h表示。
MTTR为平均修复时间,用h表示。
由式中可以看出,除了表征硬件的可靠性指标外又加进了维修的软指标。如果能做到MTTR=0,就可以实现高可用性。
从上面的介绍可以看出,数据中心的设备环节越少,实现高可用性的可能性就越高。如图6所示,把数据中心功能划分为两个范围,一个是IT系统,另一个是出IT以外的所有构成运行环境的设备,美国可用性研究中心称之为NCPI,含义是网络关键物理基础设施。在这里:
NCPI=供配电系统+冷却系统+19英寸IT机柜系统+布线系统+管理系统(包括服务系统)
图6 将数据中心功能划分为两个范围的示意图
划分后的硬件环节由多个变成了两个。很明显,UPS供电系统已被集成进NCPI。NCPI是一个概念,实现这个概念的系统结构称为InfraStruXure,中文名字叫做“英飞”。经这种划分后“英飞”系统的可用性可做到5个“9”,即0.99999,表示在一年的运行时间中,其可能的断电时间不会超过5min。
假如图5中每个独立环节的可靠性都为p=0.99999,那么系统的可靠性PS就是:
PS=0.999997=0.99993,不可靠性QS =1-PS =0.00007
如果图6中两个独立环节的可靠性也都为p=0.99999,那么系统的可靠性PN就是:
PN=0.999992=0.99998,不可靠性QN =1-PN =0.00002
从上面简单比较可以看出,IT和“英飞”构成系统的可靠性比原来提高了将近3倍,即不可靠性仅为原来的30%。再加之在结构上的一些特殊之处,使数据中心具有了以前从未有过的功能。图7示出了“英飞”B型系列的外形图。图中所示是一个包括供电功率为40~80kW、2(N+1)模块化冗余UPS电源的实例,系统的两端为UPS和PDU,中间的柜子为放置IT设备(服务器、路由器等)的19²机架。
构成单元:
1..N+1模块化冗余UPS
2.可监测的配电PDU系统
3..环境监测系统
4.散热系统
5.可联网集中监控系统
6.放置IT设备的19²机架
7.电源和数据电缆布线
8.负载再分配断路器群
9.安全门锁
图7 “英飞”B型系列的外形图
七、“英飞”系列所体现出的功能和优势
1.系统的整体性。“英飞”系列就是一个实际上的小机房。只需将市电接到它的PDU上和将IT设备放入包括电源在内预留好的位置,整个系统就可运行了。一个40kW的系统只需4个小时即可安装完毕并投入运行。节省了用户的投资、时间和诸多麻烦。
2.提高了系统的可用性。由于系统是模块化冗余结构,电源故障不影响运行,宏观上可做到平均修复时间MTTR=0。
3.方便增容和移动。用户可边投资边建设,使资金得到合理的应用。由于是标准机柜结构,拆装方便,所以搬家容易、快捷、无浪费或少浪费。
4.安全。由于设有安全门锁,未经授权人员无法接触机器,避免了人员造成的各种故障。
5.便于IT设备集中。由于IT机柜与多家IT设备结构兼容,方便了数据中心的改造和IT设备的集中。
6.良好冷却功能。高温是可靠性的天敌。一般IT机柜的冷却能力低于2kW,由于“英飞”系列引入了气流分配单元,可将每个IT机柜的冷却能力提高到4kW~8kW,满足了IT设备集中的要求。
7.节约空间。由于将原来的整体保护变为区域保护,优化了机房空间的应用,图8示出了这种情况。
8.完善的管理系统。完善的管理可预警故障,完善的故障指示可缩短修复时间和降低了对值班人员的知识要求。尤其对负载电流的的监测可具体到每一台设备,从而可预防过载事件的发生。
9.方便了用户和厂家的沟通。用户面对的只有两家:一家是IT厂家,一家是“英飞”厂家,改变了多头服务的弊病,减轻了用户的负担、节约了用户的时间,也促进了用户和厂家的关系,从而保证了服务的可靠性和及时性。
10.“英飞”除B系列外还有A系列和C系列。A系列的供电功率范围是6kW~12kW,可带12个IT机柜。C系列的供电功率范围是320 kW ~1280kW,可带几百个IT机柜。
“英飞”系列的出现正是体现了数据中心供电理念的改变。目前还只是将冷却系统的气流分配单元引入系统,随着IT机柜功率密度的进一步增加,冷却需进一步加强。比如刀片服务器的出现已向冷却系统提出了更高的要求(一个IT机柜插满刀片服务器后的功率将达到20kW),采用气流分配、导向和提速技术已无济于事。随着技术的进一步发展发展,将制冷单元直接引入“英飞”系统的时代已不很遥远。NCPI概念的含义将进一步扩大与发展。
----《通信世界》
|