新一代高密度机架优化服务器技术剖析
发布时间:2006-10-14 4:13:29   收集提供:gaoqian
---宝德PT1300R&PT2300R
宝德科技服务器研发工程师 陈振智
  从高密度机架优化式机架式服务器问世到现在已经有两年多时间了,其小巧紧凑的外型、主流的性能非常适合高密度机房环境,契合了企业用户IT系统建设"数据集中、高效处理"的趋势,博得广泛欢迎。现在,用户不仅已经接受了机架式服务器,而且在新购服务器时,大多数的用户会首选机架式服务器。据赛迪咨询2002初的调查结果显示,机架式服务器占新购服务器比例的49%,超过了传统的塔式服务器,更有一知名公司统计得出其机架式服务器销售将年增长80%多的结论。

  但是,机架式服务器在内部的设计上有其特别高要求。首先是高可用性。机架式服务器内部狭小又应用于高密度环境下,对散热的要求更为苛刻;其次,它必须是易管理的。由于机架式服务器往往是几十上百架的叠放,且不带自己的监视器和输入设备,网管人员一是难以找到发生故障的机器,二是找到后的维护十分不便。此时,WEB管理、自动预警等管理特性就十分主要。针对这些特性,我们从客户实际应用的角度入手,进行技术创新,完善了机架式服务器的可管理性、稳定性与高可用性等关键性能,引领机架式服务器技术潮流。并因此获得用户青睐。

  现在就让我们走近"新一代高密度机架优化式服务器先锋"---宝德PT1300R与PT2300R,一探究竟。

  真正安全的硬盘热插拔技术

  问题:当插入新硬盘或拔出一个硬盘时,硬盘可能会被正在工作的电源损坏。

  解决方案:宝德PT1300r/2300r硬盘热插拔背板使用了电源隔离技术,实现真正安全的硬盘热插拔。在PT1300r/2300r硬盘热插拔背板上,每个SCA硬盘接口的电源都分别被独立的电源开关控制。当硬盘背板通过SCSI总线探测到一个硬盘可能存在故障时,这个硬盘的电源将会被关闭,这时这个故障硬盘就可以被安全拔出,减小硬盘被损坏的可能性。当一个新的硬盘插入时,电源控制系统会稍等片刻,待硬盘完全插到位后,才会给硬盘上电。当硬盘热插拔背板探测到一个硬盘被拔出时,它将会立即切断这个硬盘槽的电源供应。这将防止当硬盘只是被局部拔出又重新被插回时对硬盘可能造成的损坏。同时也防止可能的供应电压的下降造成整个硬盘阵列的中断。另外,PT1300r/2300r的硬盘热插拔背板还支持热备用硬盘的电源控制。热备用硬盘的电源始终处于被关闭状态直到一个硬盘发生故障。当一个硬盘出现故障时,热备用硬盘的电源将会被自动打开,并立即进入服务,而不需要操作员的干涉去更换硬盘。最后,当插入一个短路的硬盘或一个硬盘在操作时发生短路时,PT1300r/2300r硬盘热插拔背板还支持电源控制线路的自动旁路。这样可以防止热插拔SCSI背板被短路硬盘所产生的过大电流损坏。

  故障弹性引导技术

  问题:一个故障的处理器会使服务器无法引导,导致服务器宕机。

  解决方案:宝德PT1300r/2300r服务器使用故障弹性引导技术来彻底避免由于一个服务器CPU故障而引起的服务器当机,以保证服务器的高可用性。也就是说如果PT1300r/2300r服务器所配置的第一个CPU在执行引导过程时失败,将会导致系统FRB1计时器超时,并触发FRB1超时事件。这时系统集成的专用服务器管理处理器将会发出命令把第一个CPU屏蔽,并把执行引导任务转交给第二个CPU。如果第二个CPU功能正常,系统将仍然可以被正常引导。这样即便在系统的一个CPU出现故障的情况下,系统仍可被正常引导,实现最大的高可用。

  着眼未来的电源及散热系统设计

  问题:当系统升级到更高频率的CPU时,系统的电源及散热需求也将随之增长。

  解决方案:宝德PT1300r/PT2300r 服务器包含强健的电源供应、电压调节电路及散热系统,它不同其它厂商所使用的标准方法,而是按照额定的功率需求来设计电源及散热系统。其它标准方法一般是按照实际采样的CPU样品的电源及发热来设计(一般要小于额定功率),而且使用"标准"技术,将需要大量的CPU样品,才能保证统计结果的有效性。宝德PT1300r/PT2300r是目前第一款上市时就能支持更高主频的Xeon DP家族处理器产品功率及散热需求的高密度机架优化式服务器。这样当升级到更高主频的处理器时,机箱结构无需任何改变,就能满足机器散热需求,有效保护用户的投资及降低总保有成本TCO。

  实时散热监控技术

  问题:新至强处理器对更高的散热风量的需求将增大机器噪音并会降低风扇寿命。

  解决方案:宝德PT1300r/PT2300r服务器使用领先的实时散热监控技术。集成的专用服务器管理处理器不断地实时地从智能前面板、CPU、硬盘热插拔背板及其它关键组件传感器处读取温度信息,将所读取的温度值与存储在主板上的系统管理数据库中的阈值进行比较。如果从某组件所读取的温度值大于数据库中的阈值,负责该组件散热的风扇会根据最低的需求级别自动提速;反之,散热风扇则自动降速,以提供合适的风量。此过程不断重复循环,保证系统在凉快、安静运行的同时,最大程度的延长风扇寿命。

  指示灯导向的故障诊断

  问题:故障组件需要用很长时间来诊断、识别、更换。

  解决方案:宝德PT1300r/PT2300r服务器使用指示灯导向的故障诊断技术来快速锁定故障组件并快速更放,以实现最小的当机时间。PT1300r/PT2300r服务器集成的专用服务器管理处理器实时监控系统关键组件的状态,并通过各种LED指示灯来表示各组件的健康状况。其中智能前控制面板共有5个不同指示灯可以表示15种不同的状态级别告之管理员机器目前的运行状况及可能潜在的问题;位于机器前面板及机器背后的系统ID识别灯,可以在机架式环境中快速定位目标服务器;服务器主板上的各种不同的指示灯可以帮助技术人员快速锁定故障部件如内存槽、风扇、处理器等,并迅速更换,实现最大的正常运行时间。

  先进的硬盘固定技术

  问题: 高性能、高转速的硬盘会引起更大的硬盘颤动,导至硬盘寿命的减少及性能的降低。   解决方案:宝德PT1300r/PT2300r服务器使用目前最为先进的机械工程技术来设计硬盘笼子,使用高级铝型材嵌板来作为硬盘笼子的内壁,用来固定硬盘。当硬盘被插入时,坚硬的笼子嵌板会阻止硬盘被推出,减少潜在的硬盘颤动。如果一个厂商使用不那么坚硬的材料,硬盘笼子可能会弯曲变型,增大潜在的硬盘颤动风险。另外PT1300r/PT2300r服务器所使用的热插拔硬盘拖架采用仅在每个热插拔硬盘拖架的一边使用弹片的设计方案,这样能更好的更长久地固定硬盘,避免其颤动。而有些厂商的硬盘拖架则在其两边都使用弹片,这样的设计在经过一段时间以后将会使硬盘产生轻微振荡的风险加大,最终可能导致硬盘性能降低并使硬盘寿命减短。

  第十代压力测试软件认证测试

  问题: 高性能系统中不同的数据类型及不同的数据使用模式的融合,导至潜在的数据损坏的风险加大。   解决方案:宝德使用先进的压力测试软件对服务器在各种主流操作系统平台下进行严格认证测试,以保证服务器真正高品质、高可靠。宝德PT1300r/2300r正是经过Intel? 第十代压力测试软件认证测试的新一代高密度机架优化式服务器。EPSD(Enterprise platform service division)部门不断地更新及提升仅用于内部测试的服务器压力测试软件套件,认证压力测试软件套件可以模拟产生极大的工作负载以检验最新服务器的每秒几个GB的带宽能力。新的、产生更大压力的数据格式正在被许多开发团体不断地定义,只有不断提升及改善压力测试软件,才可能使认证测试更加有效,才能保证经过认证测试的服务器真正高质量、高可用,经得起各种数据压力考验。

CHINA通信网组稿
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50