实现数据网格的关键技术
发布时间:2006-10-14 8:02:57   收集提供:gaoqian
  在现代科学研究和应用领域中,大量的数据是重要的资源,例如全球气候模拟、高能物理、生物计算、战场仿真、核模拟、数字地球、大规模的信息和决策支持系统等应用,其数据量将达到几十TeraByte至PetaBy te的级别。地理上广泛分布的该领域的科研工作者或用户都希望能够访问和分析这些庞大的数据,但其分析方法往往是计算复杂、计算量大,许多数据分析处理要求千亿次或万亿次规模的计算能力。而现有的数据管理体系结构、方法和技术已经不能满足人们对高性能、大容量分布存储和分布处理能力的要求。因此,在计算网格的基础上人们提出了数据网格(Data Grid)的构想,以解决上述应用所面临的问题。

  元数据管理和信息服务

  良好地表示、存储、访问和使用大量资源信息是数据网格运行的基本前提。在数据网格计算中,资源是分布的,资源及其提供者也是分布的,这些资源包括数据、计算机、设备、网络、外设、软件、服务、代码、人员等。元数据管理服务命名、描述、收集、组织和管理数据网格中的资源信息,这些信息就是用于描述资源、方法、数据集和用户的元数据。信息服务是元数据管理对外提供的基本服务。它实现新资源实体的注册和发布,支持资源相关性的发布,可以注册与已注册实体间的相互约束和相互联系信息。

  因此,在数据网格计算中,需要建立灵活的、可扩展的信息服务体系结构。这种体系结构应当保证资源信息提供者的广泛分布性和信息服务的分布特性,避免由于单个信息服务实体的失败导致其他资源信息服务不能正常提供服务。

  元数据可以分为系统元数据(System Metadata)、复制元数据(Replica Metadata)和应用元数据(Application Metadata)。系统元数据记录数据网格自身的结构信息,诸如网络互联情况、存储系统的容量、计算机空闲情况、使用策略等。复制元数据记录与数据副本有关的信息,如文件与具体存储系统之间的映射信息。应用元数据是与具体应用相关的文件逻辑结构或语义信息,如数据的内容和结构、获取数据的必要条件等。为了实现命名、定位和访问的透明性,网格需要有效地管理数量繁多的名字和属性,以及它们之间的关系,需要一种统一的全局命名方式,需要管理数据集的定位信息,需要有效管理数据资源存储形式等相关信息。同时,也需要管理系统资源的安全、授权、访问控制等信息。

  网格中的所有元数据构成元数据目录,它采用统一的结构来描述元数据。无论使用何种结构,元数据目录应当满足两点:其一,它应该是一种层次和分布式目录结构系统,如LDAP;其二,它应当不破坏现有系统的元数据描述方法,并能与它们很好地交互、融合。

  数据访问

  数据网格中的数据资源各种各样,表示、存储的形式也各不同。一些数据可能以文件形式存储;一些数据存储在数据库或数据仓库中;另一些存储在如同HPSS的Archive档案系统中;还有一些数据是由多个分布存储系统中的数据组成的。如何才能方便有效地访问各种异构数据组成的数据集合是数据网格的一个主要功能和关键技术。

  如果为每一种数据存储方式提供一种访问方法,用户是不可能接受的。因此,数据网格必须抽象各种数据存储系统,形成一个抽象模型,为不同的数据存储系统提供统一的数据访问接口。数据访问服务的作用就是将存储、检索数据集等高层用户的请求映射为异构分布式存储环境中的底层存储访问操作,实现广域范围内对数据有效的统一访问和管理。

  复制管理

   数据网格的数据经常需要复制,复制本质上是对数据的缓存。虽然网络速度提高很快,但要达到高性能地频繁访问和处理大量远程数据仍然很困难。复制技术为用户应用提供一个能够快速访问和处理远程数据的局部缓冲数据拷贝,避免大量数据远程传输到应用端。复制管理应具有以下一些功能:

  ● 创建一个完整的或部分的数据集拷贝;

  ● 提供选择数据复制策略、复制方式和复制地点的能力;

  ● 在复制目录中注册新的数据拷贝;

  ● 允许用户和应用查询复制目录,以便找到某个文件或数据集已存在的数据拷贝;

  ● 根据用户和应用的执行要求,以及存储、网络的性能预测,有方法和能力选择“最好”的数据副本进行访问和处理;

   ● 数据复制之间的数据一致性和更新一直是分布式数据管理的难点,它与应用数据访问、产生、操作特性紧密相关。

  在这里,复制目录的结构必须灵活和可扩展,以免影响性能的发挥。复制管理的几个功能模块应当采用分离设计方法,并可替换。

  高速数据传输机制

  数据网格计算涉及大量数据的移动、传输和复制,这就需要一种高效的数据传输机制的支持,这种传输机制要保证在广域网络的环境上可靠地传输数据。高速数据传输机制应支持以下几种功能:

  ● 高速数据传输 要支持广泛接受的协议和广域网络上的数据传输,可以采用并行数据传输机制等;

   ● 分块数据传输 数据网格支持各种数据存储形式,一些数据集的数据本身是广泛分布的,因此,需要支持多个分数据块的并发数据传输,汇总后形成一个完整的数据集;

  ● 部分数据的传输 用户和应用经常需要数据集中的一部分数据,而不是整个数据集,例如一个文件中的一段数据,因此支持这种数据的传输方式是必要的;

  ● 第三方数据传输 许多应用需要用到多个资源,必须提供一种机制,允许一个地点的用户和应用能够启动、监视和控制其他两个地点存储系统的数据传输,为应用使用多个地点的资源提供保障;

  ● 可靠、可重启、断点续传 在广域网络环境下,数据传输故障和服务器故障经常发生,导致传输中断。因此,数据传输的错误恢复机制至关重要。

  资源调度优化与远程执行

  在网格计算中,资源的调度优化和服务执行是一个关键技术问题,它主要包括请求的调度优化、资源的调度优化和资源的服务执行。请求的调度优化要对用户资源请求与可用资源进行匹配,当众多用户和应用请求同时到达,就必须统筹优化安排多个请求的资源需求。

  远程执行服务机制保证多个地点的系统能够远程启动执行,能够监控、收集和查询状态信息,控制地理上分布的多个系统的任务执行过程。

  安全技术

  在广域网络上部署计算,安全保证是至关重要的。网格安全机制将提供基本的安全保护验证机制,以验证合法的用户和资源,并为其他安全服务提供接口,允许用户选择不同的安全策略、安全级别和加密方法,提供底层基础的安全设施,这是网格计算的要求和特点。

  在数据网格中,由于数据的复制和缓冲导致了数据网格特有的安全性问题:一个站点缓冲了位于另一个地点系统中的数据,两个系统之间的安全保护机制、措施和安全级别不同,如何达到数据拥有者所要求的数据保护安全级别和策略是一个非常困难的问题。

   21世纪前期的信息基础设施将以Terascale规模(万亿:Terabits的通信能力、Teraflops以上的计算处理能力、Terabytes甚至Petabytess规模的数据和万亿个传感器或设备)为目标,科学计算领域下一个十年将是“数据十年”,数据网格计算技术的研究既迫切又重大。IT行业是按照Internet的速度向前发展,因此,在下一个以高速Internet 为基础的网格计算应用浪潮到来之前,我们必须现在开始把握和实践网格计算技术和应用。

摘自《计算机世界》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50