对网格技术应用的分析
发布时间:2006-10-14 8:15:33   收集提供:gaoqian

    对于网格的认识与理解,现在已经不局限于计算了,它的价值已经延伸到了计算应用领域的不断扩展和丰富。今天,我们就网格计算应用领域的发展和未来前景进行一下探讨。

  以前,我们谈起网格的时候,总把它想得像电力网一样,“插上插头”就能源源不断地获得计算能力。现在,网格早已远远超出了计算的范畴。除了计算网格外,数据网格、仪器网格、虚拟现实网格、服务网格、信息网格、知识网格等,将网格应用扩展到方方面面。网格的应用领域主要有五个方面:分布式超级计算、分布式仪器系统、数据密集型计算、远程沉浸和信息集成,他们所呈现的特点和发展方如下:

  分布式超级计算

  分布式超级计算(Distributed Supercomputing)是指将分布在不同地点的超级计算机用高速网络连接起来,并用网格中间件软件“粘合”起来,形成比单台超级计算机强大得多的计算平台。事实上,网格的最初设计目标主要就是要满足更大规模的计算需求,Globus正是从这类应用起家的。在这个领域有两个应用引人关注:

  第一个是军事仿真项目SF Express,它将大型军事仿真任务分解到分布式环境中运行,在场景分发、资源配置、资源管理、信息服务、日志服务、监视和容错等方面,都利用了Globus Toolkit的动态管理功能。

  第二个应用称作数字相对论,它利用网格求解爱因斯坦相对论方程并模拟出天体的运动规律。该项目使用了4台超级计算机,并采用了许多措施来优化分布式计算的整体性能,运行效率由优化前的15%,提升到了优化后的63%。

  分布式仪器系统

  分布式仪器系统(Distributed Instrumentation System)是指用网格管理分布在各地的贵重仪器系统,提供远程访问仪器设备的手段,来提高仪器的利用率,方便用户的使用。在网格出现之前,人们就试图通过网络访问一些仪器设备或仪器数据,但当时的软硬件环境还不成熟,只能实现一些低要求应用。而网格将分布式仪器系统变成了一个非常易于管理和有弹性的系统。这个领域有代表性的是美国能源部支持的XPort项目。它基于Globus,能提供远程仪器使用规划、仪器操作、数据获取、筛选和分析等功能,它明显地简化了巨型分子晶体结构的设计和实施。科技工作者只要用邮包把晶体快递给仪器所在地,就可以在自己的实验室中获取到晶体内部结构的可视化图像。

  数据密集型计算

  数据密集型计算(Data Intensive Computing)对应的数据网格更侧重于数据的存贮、传输和处理。在这个领域独占鳌头的项目是欧洲原子能研究机构CERN所开展的数据网格DataGrid项目,它的目标是处理2005年建成的大型强子对撞机源源不断产生的PB/s量级实验数据。

  远程沉浸

  远程沉浸(Tele-immersion)是一种特殊的网络化虚拟现实环境。这个环境可以是对现实或历史的逼真反映,可以是对高性能计算结果或数据库的可视化,也可以是个纯粹虚构的空间。“沉浸”的意思是人可以完全融入其中:各地的参与者通过网络聚在同一个虚拟空间里,既可以随意漫游,又可以相互沟通,还可以与虚拟环境交互,使之发生改变。目前,已经开发出几十个远程沉浸应用,包括虚拟历史博物馆、协同学习环境等。更重要的是,它将“人/机交互”模式扩展成为“人/机/人协作”模式,不仅提供协同环境,还将对数据库的实时访问、数据挖掘、高性能计算等集成了进来,为科技工作者提供了一种崭新的协同研究模式。

  信息集成

  网格最早是以集成异构计算平台的身份出现,接着跨入分布式海量数据处理领域,自然而然地,网格将在信息集成领域一展身手。所谓的信息网格,就是要通过统一的信息交换架构和大量的中间件,向用户提供“信息随手可得”式的服务。

  信息网格研究的中心问题有如何描述信息、存储信息、发布信息和查找信息;如何将异构平台、不同格式、不同表述方式的信息进行转换,实现信息的无障碍交换;如何充分利用现有网络技术,如HTTP、XML、WSDL、UDDI、SOAP等,构成一个完整的服务链;信息的语义表示,即如何赋予信息以内涵,以及如何避免信息的二义性;如何对信息加密,防止信息泄露,等等。

  网格信息集成将更多地用在商业上。网格将使分布在世界各地的应用程序和各种信息,能够进行无缝融合和沟通,从而形成崭新的商业机会。例如,对于一位想到美国旅行的人来说,他需要办理各种手续,如护照、签证、机票、酒店、地面交通等。如果所有的服务设施都把它们的服务通过网格发布出来了的话,就可以让程序自动为其办理手续和安排行程了。

  网格应用分析

  早期的网格应用是架构在五层沙漏模型上的,主要是针对科学计算应用,仅限于学术界的话题。当时,科学家们设想把网格变得像电力网一样,只要“插上插头”就能使用前所未有的计算能力。然而,经过几年的实践,证明这些设想在目前阶段尚不现实。

  实际上,构建通用的计算网格是比较困难的。因为很多应用是通信密集型的,子任务之间有频繁的通信,而远程的网络带宽远不及系统区域网和局域网内的带宽,这就是用大规模网格计算的效果,可能还不及使用规模小得多的集群计算的原因。从长远来看,带宽的问题终将得到解决,因为网络带宽每9个月就会增长1倍,比每18个月增长1倍的处理器提升速度还快。不过,即使带宽的问题解决了,通信延迟的影响也不可小视。因为网络速度的上限是光速,而光速每秒钟为30万公里,传送3000公里就需要10毫秒,这种延迟比集群内部微秒量级的延迟要大得多。看来,即便将来网格能够提供像电力一样的计算服务,还是需要针对应用程序的特性作专门优化,以尽可能地减少通信延迟带来的巨大影响。

  网格的“出路”

  对于科学计算而言,建议使用“网格计算池”模式。“网格计算池”将计算网格限定为三点。

  计算资源共享(N台本地或异地高性能计算机加入这个系统中)。数学分析表明,这可以明显地提高资源的利用率和服务质量。

  不把一个任务分解成M个子任务,而只是安排在其中一台合适的机器上运行。事实上,现在只有极少的任务是任何单台高性能计算机都无法处理的。这条限定可以在避免分解任务的复杂性的同时,降低用户使用高性能计算的门槛。更重要的是,它可以避免任务子模块之间频繁通信造成性能下降。

  通过Web提交任务和查看结果。这可以方便用户访问高性能计算机:用户不必出差,不必到实验室排队,在家中就可以24小时提交和运行任务。一般来说,提交任务和返回结果的通信量,相比计算时的内部通信量要小得多。

  网格进入商用化

  信息集成(如信息网格、服务网格、知识网格等)将是最近几年网格最可能流行起来的应用方向。2002年2月20日,Globus联盟和IBM在全球网格论坛上发布了开放性网格服务架构OGSA(Open Grid Services Architecture)及其详细规范OGSI(Open Grid Services Infrastructure),把Globus标准与支持商用的Web Services的标准结合起来。2004年1月20日,Globus联盟、IBM和HP等又联合发布了新的网格标准草案WSRF(Web Services Resource Framework),干脆把OGSI转换成了6个用于扩展Web Services的规范。这时,网格服务已经与Web服务彻底融为一体了。这标志着网格已经调整好方向,将信息集成作为第一目标了。这一步,标志着网格商用化的时代已经来临。

  此外,数据网格也将会产生成功的应用模式。Globus目前已经提供或即将提供一些基本的数据网格功能,如数据高速传输、数据复制、数据复制的选择、元数据管理等。 其实,在Globus之前,就已经有一些成功的分布式海量数据管理系统,如存储资源代理系统SRB、高性能存储系统HPSS和分布式并行存储系统DPSS等。SRB为用户提供了一个访问文件系统、档案系统、数据库系统等多种异构存储系统的统一接口,屏蔽了存储系统的异构特性,支持广域网络环境下多种数据源的访问,已经被几十家单位使用。HPSS项目早就在1993年就开始了,是一个层次化的存储系统,其目标是让海量数据能够在网络化存储、高性能计算机、海量数据库之间快速传递。HPSS也已经有不少的用户,将来像SRB、HPSS这样的系统,都会提供类似数据网格的标准接口。可以预见,Internet已经变成了一个数据海洋,对这种能将分布、异构、海量的数据集成起来的数据网格会有大量需求。

  在1994年秋季举办的COMDEX大会上,比尔·盖茨曾经预言,2005年将实现“信息随手可得”的目标。2004年第3季度,基于新标准WSRF的网格平台Globus Toolkit 4.0将面世。可以想像,到了2005年,会出现大量融Web Services和网格服务为一体的新型服务出现,让计算机跨越时间和空间的限制,自动获取和处理信息成为现实。从这个意义上讲,比尔·盖茨的预言是极其准确的,正如他在上个世纪70年代就预测到PC机将占据每个人的桌面一样。

  

 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50