数据中心在变化
发布时间:2006-10-14 8:05:51   收集提供:gaoqian


  尽管现在进入任何一个数据中心,你所看到的景象同十年前没有多大的不同,但是由于超密集型服务器机架、分散和虚拟运算的趋势、即时故障切换,以及IP电话和通过IP传输声音信息的新需求的不断涌现,数据中心的各个部分正在发生改变。

  数据中心的四大变化:

  1.超高密度服务器机架引发对散热的强烈需求;

  2.向分布式和虚拟处理移植的趋势使数据中心分散配置成为可能;

  3.即时故障切换的需求要求数据中心具备双倍冗余能力;

  4.向IP电话和VoIP移植的趋势对数据中心的通信体系和管理都带来了变化。

  一直以来,服务器和处理器厂商都把建造更小更密集的系统作为研发目标,这尽管令人兴奋,但是如今由此带来的诸多问题开始显现。别的不说,单就散热问题就足以让数据中心的管理人员头疼的了,因为正如美国密执安州某医院数据中心运营主任罗伯特所言:“并非人人都能建造一个可以满足散热需求的数据中心。”因为这不是一件容易的事情。所以,斯坦福大学的数据中心经理Patrick Luma说,他很想看到服务器厂商“少把注意力放在缩小机器的尺寸上,多把注意力集中在减少机器内的发热量上。”

  数据中心需要不间断散热

  关于散热问题,数据中心设备的设计者们通常单凭一些简单的经验来解决,例如,如果一个空间有上千平方英尺大,则需要数吨空调设备;或者他们依据设备铭牌上列明的最高电力使用量来布置散热系统。事实上,这些简单作法今天并不能凑效,它可能会导致在整体设备上消耗过多昂贵的制冷资源,甚至还可能导致服务器机架内部的多处小空间的温度极高。

  加利福尼亚数据中心设计集团总裁Ron Hughes说: 去年,一般的数据中心每平方英尺面积消耗电量是40瓦,使用旧服务器机架的数据中心则每平方英尺面积耗电量是2千瓦。今年,他正设计一套能支持每平方英尺面积平均耗电120瓦,机架的耗电量为4千瓦到5千瓦的数据中心设备。

  Hughes说: “如果您了解HP、Sun、IBM、Dell等公司最新的构想,您就会发现,这些制造商预计刀片式服务器机架的耗电量将达到15千瓦至25千瓦。服务器领域将朝着更小的空间、更高的处理能力和更大的耗电量发展,当然散热的要求也会相应提高。我曾经发现有些公司预计单个机架的耗电量将高达30千瓦,也就是说数据中心里每平方英尺的能耗将达到500瓦。”

  由此带来的最大问题并不是散热本身,而是如何以合理的价格实现散热。Hughes说,如果每平方英尺的功耗为40瓦,那么建设数据中心的成本将是每平方英尺400美元,建设一个5万平方英尺的数据中心就需要2千万美元。但Hughes同时还指出,到2009年,根据预测每平方英尺的功耗将高达500瓦。到那时,冷却空气用量、不间断电源(UPS)、发电机和相关设备的成本将会大幅度提高。他说,建设此类数据中心的单位成本将攀升至每平方英尺5千美元,而对于同样一个数据中心,造价也将从2千万美元窜升至2.5亿美元。

  当数据中心在紧急时刻切换至备用电源时,散热的问题就会变得更加复杂。在发生断电时,UPS单元会立即启动,因此对计算机来说电源的供应并没有受到干扰或中断。但是,在此类事件中,发电机要等到15秒至60秒后才能启动散热系统。这在过去根本算不上是什么问题,但在许多比较新的设备中,温度攀升的速度非常快。 Uptime Institute 公司高级顾问Bob Sullivan 说: “如果数据中心内每平方英尺的功耗是40瓦,那么在冷却系统停止工作后的10分钟内,温度会上升25度。但如果数据中心每平方英尺的功耗是300瓦,温度上升25度所需要的时间还不到一分钟。”

  Sullivan说,解决问题的方法是使用不间断散热系统,其工作原理也同不间断电源系统类似。这就需要使用大量的风扇,利用不间断电源的供电向数据中心源源不断地提供经冷却的空气。

  分散配置数据中心以防灾难

  今天,许多公司只拥有一个大型数据中心,而有些公司则根据其用户的所在地设置两个或更多的数据中心。但随着“暗”光纤价格的降低和新型虚拟软件的普及,企业都能够以更灵活的方式实现动态的处理负荷分散配置,并且对用户来说是完全透明的。例如,Federal National Mortgage Association公司就拥有两个数据中心,其中一个多数情况下用作紧急备用站点。这家按揭金融公司负责IT系统的主管 Stan Lofton说,Fannie Mae公司正在为他们公司建设另外一个数据中心,用于替代原来的紧急备用中心,使两个数据中心最终都发展成为“协作生产环境”。 他说:“我们目前有许多应用都可以实现双站点生产性运营,因此如果其中一个站点发生故障,用户仍然可以获得连续无缝的服务。在将来,我们将让越来越多的应用以这种方式运行。”

  Business Technology Partners公司是一家总部设在纽约的企业。该公司总裁Joshua Aaron说,这种方法避免了单个故障点的出现,并且使灾难恢复变得更快,更容易。他指出:“由于不必将所有的不动产集合在同一个地点,这样在灾难恢复和重建过程中,您就拥有了更多的优势和主动权。”这种方法也使许多公司开始考虑在企业内部实施灾难恢复,而不使用其他公司提供的灾难恢复服务。Sullivan says说:“您会发现,这类灾难恢复设备也可以用于开发、测试和协作生产环境中。”

  Fannie Mae公司的设施经理Terry Rodgers说:协作生产型数据中心具备“连续可用性”功能。当主站点在发生火灾或其他灾难时,越来越多的用户希望几个小时、甚至几分钟内启用备用站点的系统。Rodgers指出,故障切换必须能够立即实现,而在这一过程中软件和硬件的作用都是非常重要的。

  双倍冗余保持业务连续

  要想实现连续的可用性,就必须按照Uptime Institute定义的要求建设第5级(Tier IV)的数据中心。第5级的要求明确规定应使用两套独立的供电系统,从双份电缆到双份计算机硬件,所有的设备都必须有两套。Rodgers 说: Fannie Mae公司正在建设的新数据中心就完全符合第5级的规格,并且能够提供真正的“实时备份”。

  Visa美国公司拥有两个面积在5万平方英尺以上的数据中心,一个在美国东海岸,另外一个在西海岸。这两个数据中心中每一个都可以立即成为另外一个数据中心的备份站点。两个数据中心都被评为N+1级,也就是说拥有N个组件的每套系统都拥有至少一个热备用组件。例如,如果一个数据中心正在使用的UPS模块有6个,那么根据N+1原则,就应该有第7个UPS模块处于备用状态下。



  在一年内,Visa公司将移植到一套2(N+1)架构下,即每套系统都有完全相同的备份系统。在上面的例子中,该数据中心应当拥有两套随时可用的UPS系统,每套系统都拥有独立的电缆,并且每套本身也构成了自己的N+1冗余体系。

  Visa 公司负责运营的高级副总裁Richard Knight 说:“在十年前,N+1构架只允许一个组件发生故障。现在,随着技术的变化,再加上所有的设备都拥有了双电源系统,2(N+1)成为终极的设计已经变成了很自然的事情。这可以说是典型的双套系统与双套组件之间的关系。”

  Visa公司的另一位副总裁Jerry Corbin说,除了提供最高级别的容错能力,2(N+1)还能够大幅提高灵活性,因为我们可以在系统维护时关闭整个系统。但是他也指出:“这种方案也会使管理工作的复杂性变得非常巨大。”

  适应新的通信和管理方式

  Aaron认为,联网问题也在改变数据中心的设计,而存储区域网络(SAN)则提出了特殊的挑战。他说:“尽管IP SCSI正在逐步打开自己的市场空间,但存储区域网络通常是与光纤通道交换机连接在一起的。今天的光纤通道交换机需要有自己的基础设施,而且必须在数据中心设计阶段就考虑到这些交换机的安置问题。它们要占用机架空间并且消耗大量的电力。”

  的确,通信方面的考虑也将越来越多地影响数据中心的设计。Aaron 预计:“随着VoIP技术的普及,目前的数据中心必须能够支持一种非常重要的关键任务应用:语音。那么,如何为IP电话提供电源呢?如何处理911服务呢?如何提供语音邮件呢?如何支持统一信息呢?这些都是需要认真考虑的问题。”

  Aaron指出,如果因为停电而延误了对911报警服务的支持,问题可谓相当严重。但这一点在传统的数据中心设计中根本没有考虑过,不过,现在就必须考虑了。而其中需要考虑的关键点就是语音网关、媒介网关和IP电话使用的备用电源设备。

  IP网络也是一把双刃剑,既有优势,也有挑战。许多数据中心里都开始安装环境监视传感器,并将其连接到数据网络中,这样,设施经理和IP经理都可以通过这种统一的方式了解所有系统的健康状况。

  数据设备制造商也使用通用的数据交换标准和网络协议来帮助设施和IT部门构建统一、通用的管理体系。例如,总部设在Austin市的NetBotz公司就销售一种具备IP地址的无线“监视设备”,能够安装保安摄像机、麦克风,以及温度、湿度及风量传感器。管理人员可以通过远程方式读取数据并通过电子邮件发送警报。

  Aaron说:“这些东西的成本、尺寸和复杂性已经下降。而且它们已经和网络集成在一起,因此可以通过广域网在远程地点对它们进行查看和控制。”(译自《Computerworld》)

  方法●散热

  如何为数据中心降温

  目前有许多已经或即将推出的解决方案都能够有效解决数据中心降温散热的问题。它们包括:

  ● 直接散热。这种方法并不像今天的数据中心那样使用分区的方法,利用一排排设备间的走廊降低整个数据中心的温度。这种数据中心的设计利用定向辅助散热,如连接在机架、机柜或单个部件外部或内部的水冷或制冷散热单元。

  ● 水冷处理器。这种方法的起源可以追溯到大型机时代。主要的计算机制造商都在研究这种技术,但尚未推出真正的产品。Fannie Mae公司的设施经理Terry Rodgers认为:“如果在三到五年前,我肯定会设计抬高的风冷系统,这在今天是非常普及的作法,但从今天的情况来看,我更愿意选择冷水散热设备。这样几乎可以一劳永逸地解决问题。” 加利福尼亚数据中心设计集团(California Data Center Design Group)总裁Ron Hughes则认为:“这种解决方案对于大型数据中心肯定是有意义的。”

  ● 分散发热量较大的设备。一些公司没有将自己的机架塞满服务器,而是将它们分散放置,相隔的距离也比较远。在某些情况下,这是一种成本非常低的解决方案,但如果数据中心内空间紧张或不动产的价格非常昂贵,那么这种作法恐怕就会变得很不实用。

  ● 更具智能的容量规划和散热能力分配。美国加热、制冷及空调工程师协会在今年公布了一份指导文件。利用这些指导原则,服务器制造商可以按照最小、典型和满负荷三种级别的配置报告其设备的散热和气流要求。DLB Associates Consulting Engineers PC 的总裁Don Beaty指出,这些“热量报告”可以帮助数据中心设计人员遗漏热点和超过总体散热容量等问题的出现。

  案例●管理

  Visa公司扩大对数据中心的监视

  Visa美国公司正在努力将数据中心的监视水平提高到一个新的层次上,不仅扩展传统的硬件和软件组件监视,而且还要增加对服务水平的监视。该公司负责运营和网络服务的副总裁Tony LaManna指出,在过去,如果数据中心内一个电源分配单元(PDU)发生了故障,必然会对客户服务造成非常明显的不良影响。

  目前Visa公司利用一个软件网络对所有的2万1千个成员金融机构和2千万商家进行监视。如果某一个加油站的读卡器不能读出客户的信用卡,那么在Visa数据中心的工作人员就可以对整个事情进行跟踪并找出问题的根源。该公司负责运营的高级副总裁Richard Knight 说:“组件级的测量是非常重要的,但究其根源,我们的目标是让持卡人能够顺利使用自己的信用卡,并让商户能够顺利地出售自己的商品。”

  Visa的服务监视系统是在以下组件的基础上建立起来的:

  ● Netcool 它负责监视和调查,由旧金山的Micromuse公司提供。这些工具能够从整个IT基础设施中采集实时数据,并将其合并到单个管理控制台上,同时向经理人员和其他系统通报那些影响客户服务的问题。

  ● NerveCenter 由马萨诸塞州Westboro 市的OpenService公司提供。NerveCenter负责进行网络监视、集成网络和安全事件,执行问题根源分析并自动解决某些问题。

  ● Powerpack 由佛罗里达州Winter Park市的Interlink Software公司提供。该工具能够进行事件监视,同时也可从最终用户的视角实施性能分析。

  Visa很快还将进一步改进该监视网络,将其集成到数据中心设施管理系统中。到那时,管理人员就可以很快找出许多问题的根源,像电源分配单元故障与客户服务受到的冲击之间的联系也可以很快查明。LaManna说:“到那时,我们可以完整地了解端到端的所有情况和问题。”

  
摘自《计算机世界报》 第46期 C6、C7
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50