MPEG-7:多媒体内容描述接口
发布时间:2006-10-14 4:15:43   收集提供:gaoqian
北京广播学院 宋培义
           [摘要]本文综述了正在开发的MPEG-7标准,介绍了MPEG-7的目标,讨论了MPEG-7的应用、范围、结构和基本构成部分、术语和要求。最后,阐述了描述定义语言(DDL)的主要特征,该语言将允许MPEG-7用户创建自己的描述图和描述符。

  当今各类多媒体信息正在世界范围内快速增长,越来越多的信息是以数字形式、在线形式以及诸如静止图象、图形、3D模型、声频、语音、视频等形式出现。尽管音视信息在我们的生活中起着非常重要的作用,但这类日益庞大的信息也引起了一个普遍问题:如何能快速和方便地找到我们想要的音视信息?这种富有挑战性的形势使我们需要一种能迅速和有效地搜寻到各类用户感兴趣的多媒体材料的解决办法。

  MPEG-7标准(多媒体内容描述接口)将为各类多媒体信息提供一种标准化的描述,这种描述将与内容本身有关,允许快速和有效的查询用户感兴趣的资料。

  一 MPEG-7的目标

  运动图象专家组(MPEG)是ISO/IEC的一个工作组,负责开发运动图象、声频及其混合信息的压缩、解压缩、处理和编码表示方面的国际标准。MPEG已经制定了MPEG-1、MPEG-2和MPEG-4标准。MPEG-1和MPEG-2已广泛应用在多媒体工业,例如数字电视、CD、视频点播、归档、因特网上的音乐等等。MPEG-4主要用于64kbps以下的低速率音视编码,以使用于窄带多媒体通信等领域。MPEG目前正在制定MPEG-7和MPEG-21。

  1996年10月,运动图象专家组开始着手一项新的研究课题来解决多媒体内容描述的问题,即多媒体内容描述接口(简称MPEG-7)。MPEG-7将扩大现今在识别内容方面存在的能力限制,将包括更多的数据类型。换言之,MPEG-7将规定用于描述各种类型的多媒体信息的一组标准描述符集、描述符的结构和反映它们之间关系的描述图。MPEG-7也将标准化描述定义语言(DDL),用它来定义新的描述图。

  MPEG-7的目标是支持多种音频和视觉的描述,包括自由文本、N维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述将包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。

  MPEG-7的目标是根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的需求。以视觉内容为例,较低抽象层将包括形状、尺寸、纹理、颜色、运动(轨道)和位置的描述。对于音频的较低抽象层包括音调、调式、音速、音速变化、音响空间位置。最高层将给出语义信息:如“这是一个场景:一个鸭子正躲藏在树后并有一个汽车正在幕后通过。”中间抽象层也可能存在。抽象层与提取特征的方式有关:许多低层特征能以完全自动的方式提取,而高层特征需要更多人的交互作用。MPEG-7还允许依据视觉描述的查询去检索声音数据,反之也一样。

  MPEG-7的目标是支持数据管理的灵活性、数据资源的全球化和互操作性。

  总而言之,MPEG-7将为各类音视信息提供依据内容的标准化描述,允许人们按其内容快捷和有效的检索多媒体数据,并且涉及的应用领域十分广泛。

  二 MPEG-7的应用领域

  在我们的日常生活中,日益庞大的可利用音视数据需要有效的多媒体系统来存取、交互,显示复杂的和各种不同的信息。这类需求与一些重要的社会和经济问题相关,并且在许多专业和消费应用方面都是急需的,例如:

  ● 音视数据库的存储和检索;

  ● 广播媒体的选择(广播、电视节目);

  ● 因特网上的个性化新闻服务;

  ● 智能多媒体;

  ● 教育领域的应用;

  ● 远程购物;

  ● 社会和文化服务;

  ● 调查服务;

  ● 遥感;

  ● 监视;

  ● 生物医学应用;

  ● 建筑、不动产及内部设计等。

  原则上,任何类型的AV(Audio-Visual)材料可以通过任何类型的查询材料来检索,例如,AV材料可以通过视频、音乐、语言等来查询,通过搜索引擎来匹配查询数据和MPEG-7的音视描述。下面给出几个查询例子:

  音乐:在键盘上弹几个音符就能得到包含(或近似)要求曲调的音乐作品列表,或以某种方式匹配音符的图象,例如,从情感方面。

  图形:在屏幕上画几条线就能得到类似图形、标识、表意文字(符号)等的一组图象。

  图象:定义物体,包括颜色插补或纹理,就会得到一些例子,从中你可以选择感兴趣的物体来组成图象。

  运动:对一组给定的物体,描述在物体之间的运动和关系,就会得到实现所描述的时空关系的动画列表。

  电影拍摄剧本(剧情说明):对给定的内容,描述出动作就会得到发生类似动作的电影拍摄剧本(剧情说明)列表。

  嗓音:通过摘选一段帕瓦罗蒂的嗓音,就能得到有关帕瓦罗蒂情况的列表,包括履历、帕瓦罗蒂正在演唱的视频片段或有帕瓦罗蒂在场的视频片段。 但怎样使用MPEG-7数据的方式来应答用户的查询不在该标准的范围之内,图1是MPEG-7搜索应用的一种结构。搜索引擎可在任何数据集中随意地访问任何完全的或部分的与任何音视对象有关的描述,通过使用链接信息实现对要显示数据的排列和检索。

    

  三 MPEG-7的范围

  图2表示了一个抽象的MPEG-7范围框图,这个图包括了特征提取(分析)、描述本身和搜索引擎(应用)。



  应该注意的是:描述的产生(特征提取、索引处理等)和描述的使用(搜索引擎、检索处理等)不是MPEG-7的标准部分;只有描述本身是MPEG-7的标准部分。

  这样做的原因只是想标准化交互工作需要的最小内容,不论从索引或检索方面来说,利用在非标准领域的技术改进、工业领域激烈的竞争,遵循类似于 MPEG-1、-2、-4的编码处理方法和MPEG-4的分阶段实现方法都是有益的。

  四 MPEG-7的结构和组成部分

  MPEG-7不是要定义进行内容描述的单一系统,而是要对多媒体描述的不同步骤提供一组方法和工具。因此,MPEG-7将要对下面一些内容进行标准化:

  ● 一组描述符;

  ● 一组描述图;

  ● 用来指定描述图(可能还有描述符)的一种语言,即描述定义语言(DDL);

  ● 用来支持多路描述、同步问题、传输机理、文件格式等的系统工具。

  MPEG-7标准由下列部分组成:

  1 MPEG-7系统:用于产生MPEG-7描述以便高效传送和存储并允许在内容和描述之间同步的标准结构和工具。该部分也包括与管理和保护知识产权有关的工具。

  2 MPEG-7描述定义语言:用来定义新的描述图,或许最终还可用来定义新的描述符及DDL表达式的二进制表示,

  3 MPEG-7音频:处理音频描述的描述符和描述图。

  4 MPEG-7视觉:处理视觉描述的描述符和描述图。

  5 MPEG-7多媒体描述图:处理类特征和多媒体描述的描述符和描述图。

  6 MPEG-7参考软件:MPEG-7标准相关部分的软件实现。

  7 MPEG-7一致性:用来测试MPEG-7实现一致性的指导和过程。

  五 MPEG-7术语和要求

  下面让我们来阐明以下在MPEG-7中所用术语的含义。

  1 数据(Data)

  定义:不论存储、编码、显示、传输、媒体或技术,数据是指用MPEG-7描述的音视信息。

  这种广义的数据定义包括了文本、图形、静止图象、视频、胶片、音乐、语言、声音及其它媒体。例如,MPEG-4流、录象带、音乐CD或者在Web上的交互式媒体设备。

  2 特征(Feature)

  定义:一个特征是指对某人表示某事的一个明显数据特征。

  对于一个给定的数据集,如果缺乏有意义的特征表示(描述符)和实例(描述符值),特征本身不能比较。

  一些特征的例子包括:图象的颜色、一段语音的音高、一段声频的节奏、一段视频中的摄像机运动、一首音乐的类型(流派)及一部电影的字幕等。 3 描述符(Descriptor)

  定义:一个描述符(D)是一个特征的表示。一个描述符定义了特征表示的语法和语义。

  下面是特征和描述符的一些例子:

  特征 描述符

  颜色 Y、U、V分量的直方图

  形状 傅立叶描述符,多角形顶点

  运动 运动域或一个模型系数

  声频 平均频率分量

  字幕 文本

  注释 文本

  类型(流派) 文本、词典中索引

  有可能用多个描述符来表示单一的特征,即表示不同的相关要求。例如,用运动域和时间码表示持续时间,或用颜色的矩量和直方图来表示颜色。 4 描述符值(Descriptor Value)

  定义:一个描述符值是指对一个给定的数据集(或子集)的一个描述符的实例化。

  描述符值通过与一个描述图结构的结合来形成一个描述。

  5 描述图(Description Scheme)

  定义:一个描述图(DS)规定了它的组成成分(可能包括不仅描述符而且还有描述图)之间的结构和语义关系。

  描述图提供了一组标准的数据类型和描述结构,它们是产生音视内容的XML(可扩展标记语言)描述所需要的。描述应是人可读的并且在处理音视数据的应用中能被搜索、传送和过滤。

  描述符与描述图是不同的。描述符表示的是音视数据低层的感性特征并且是要被自动提取的。在许多情况下,描述符对应音视数据的感性属性、区域和段,例如描述一个区域的颜色。此外,描述符数据一般是人不可读的,因为描述符提供的是音视数据特征的二进制描述。另一方面,描述图用DDL来定义并且产生人可读的XML描述。

  6 描述(Description)

  定义:一个描述是由一个描述图(结构)和描述数据的描述符值集(实例)所组成的。

  一个描述是一个描述图的实例,它可能包含一个完全或部分实例化的描述图。

  7 编码描述(Coded Description)

  定义:一个编码描述是一个已被编码用来实现诸如压缩效率、错误恢复、随机存取等相关要求的描述。

  8 描述定义语言(Description Definition Language)

  定义:描述定义语言(DDL)是一种能创建新的描述图,可能还有描述符的语言,它也能对现有的描述图进行扩展和修正。

  为了更好地理解上述术语,即描述符、描述图、DDL和它们之间的关系,请参见图3。图3表明,DDL提供了建立描述图的途径,通过描述图形成了描述产生的基础。



  图4说明了MPEG-7实际是如何工作的。左边部分表示了如何注释数据,而右边部分说明了如何检索被描述的数据。方形框里描绘了正在做事的工具,如编码和解码,椭圆型框表示了诸如描述的静态成分。例如,“描述产生”框是产生一个MPEG-7描述作为输出的一个描述产生引擎,这里表示为矩形框。带点的框包含了MPEG-7标准的规范成分。请注意,从内容到用户之间还可以有其它的流,尽管这里没有画出来。

  用二进制来高效的表示描述并非总是必须的,这就意味着将直接使用文本来表示描述。在某些情况下,编码器和解码器是可选的。



  原则上,使用MPEG-7的描述来应答用户的查询方式超出了该标准的范围。然而,要想定义一个好的标准,查询是至关重要的,这要由搜索/筛选引擎负责查询符合MPEG-7描述的查询数据。一般来说,任何类型的音视内容可以通过任何类型的查询(多模型及跨模型搜索)来检索。

  依据对MPEG-7描述所涉及的大范围潜在应用的分析,MPEG-7工作组已经汇编了若干对有关内容要求的文件,包括对描述符的要求、对描述图的要求、对DDL的要求、对描述的要求及系统要求。原则上,这些要求不但可以应用于实时,也可以应用于非实时以及“推-拉”应用。注意,虽然MPEG-7标准应该满足所有的要求,但并不是每一个描述符或描述图必须满足所有的要求。详细情况请参考MPEG-7 Requirements Document[3].

  六 描述定义语言(DDL)

  用于创建 MPEG-7描述的主要工具是描述定义语言DDL(Description Definition Language)、描述图(DSs)和描述符(Ds)。描述符将特征结合为一组值。描述图是多媒体对象的模型,它们代表了诸如描述数据模型的全体。描述图指定了能用在给定描述中的描述符类型、这些描述符之间或其它描述图之间的关系。在这种情况下,由DDL定义语法规则来表示描述图和它们的解释。

  DDL形成了MPEG-7标准的核心技术,它提供了描述性的基础,通过它用户能够建立自己的描述图和描述符。DDL定义了语法规则来表示描述图和描述符并将二者结合起来。然而,DDL并不是一种象UML(统一模型化语言)的模型化语言,它是一种用来表示模型化音视数据结果的模式语言。

  DDL必须满足MPEG-7的DDL要求,它必须能表示一个描述图的各元素间及描述图之间在空间上、时间上、结构上、概念上的关系。DDL必须提供一个丰富的模型在一个或多个描述和它所描述的数据之间的链接和引用,它也必须能确认描述符的数据类型,包括基本型(整数、文本、日期、时间)和复合型(直方图)。此外,它必须是与平台和应用无关的并且是人机可读的。

  自从1998年10月MPEG-7征集提议以来,MPEG-7 DDL AHG收到了大量的有关DDL设计的提议和文件。DDL的设计也受到W3C(万维网联盟)的XMLSchema语言和RDF(资源描述框架)的极大影响。开始的时候,DDL工作组决定开发自己的语言,但同时追踪W3C的XML Schema的开发。2000年4月,W3C的XML Schema工作组发布了最后一轮的XML Schema 1.0规范工作草案。该XML Schema语言改进后的稳定性、其潜在的应用范围、可用的工具和解析器以及能满足MPEG-7大多数要求的能力,使DDL工作组决定采用XML Schema作为其DDL的基础。

  虽然在2000年3月召开的第51次国际MPEG会议上已决定采用XML Schema作为MPEG-7的DDL,但DDL需要对XML Schema做一些专门的扩充(如数组和矩阵)来满足MPEG-7的全部要求。因此,在逻辑上可以把DDL分解成下列的标准组成部分:

  ● XML Schema结构部分;

  ● XML Schema数据类型部分;

  ● MPEG-7对XML Schema的扩展部分。

  该工作草案的目的是提供一个简单的、明确的MPEG-7 DDL规范,该规范将使MPEG-7的用户和开发者创建有效的MPEG-7描述图和描述符;开发诸如编辑器和解析器这样的工具来处理描述、描述图和描述符;实现对DDL的细化、扩充和修正。

  七 MPEG-7工作计划

  MPEG-7是来自运动图象专家组的一个宏大的标准化尝试。自从1996年10月以来,MPEG-7经历了发出提议征集、提议评估和实验模型(XMs)等几个阶段。96年10月到98年10月期间,定义了MPEG-7的范围、目标和要求。随着这一阶段工作的结束,从98年10月开始了公开征集提议,要求提交适应要求[3]的相关技术。随后有60个组织提交了大约400份提议,99年2月在MPEG-7的测试和评估会议上对这些提议进行了评估,从中选择了一些提议和某些提议的部分内容进入共同研究阶段。

  在共同研究阶段,所选择的各个提议的成分被结合为一个公用模型(试验模型XM),而后又对试验模型进行了不断地更新和改进。MPEG-7在经过几个版本的工作草案后,最后达成了委员会草案(CD)阶段。对试验模型的改进是通过核心试验(CEs)来完成的。核心试验被定义为:根据定义良好的测试条件和标准,在试验模型框架内测试不同组织所提供的工具。其目标是开发出尽可能好的试验模型。最后,那些符合MPEG-7标准内容的试验模型部分(或工作草案部分)被标准化。MPEG-7的工作计划如下:

  征集提议 1998年10月

  评估提议 1999年2月

  工作草案 1999年12月

  委员会草案 2000年10月

  国际标准草案 2001年7月

  国际标准 2001年9月

  八 结束语

  MPEG-7所要解决的问题是快速和高效地识别用户感兴趣的各类多媒体信息。MPEG-7的成功与否也将取决于能否开发和利用能有效地产生、存储、搜索、检索和解释MPEG-7描述的硬件和软件工具。

  MPEG-7不仅将提供标准化的核心技术来描述多媒体环境下的音视数据内容,而且也将提供互操作性、内容描述的兼容性及灵活性。   通过建立能很好的用于视频、图象、音乐、语音和声音索引领域的描述图及其变体,MPEG-7在某些核心应用上将展示出强大的优势,允许许多初期的产品将这些基本的标准作为目标。MPEG-7将提供某种类属(在描述符上)和功能(在DDL上)以使这个标准能在专门的行业上使用。   对于未来的多媒体服务,必须将内容的表示和描述共同来考虑,也就是说,许多涉及内容表示的服务必须要首先处理内容描述。一个没有被描述的内容可能是无用的。

  在不久的将来,无论在哪里我们都会有可用的音视信息并能快速找到我们想要的信息,我们可以更加自由的与多媒体内容交互及重新使用音视信息的内容,或以新的方式将这些内容的某些成分结合起来使用。

摘自《广播电视网络技术》2001.6
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50