谈MPEG-7内容描述规范及其应用
发布时间:2006-10-14 4:14:36   收集提供:gaoqian

上海师范大学教育技术系 陈 晖

浙江大学信电系 詹 磊
  

  摘 要:人们如何在海量的媒体信息中迅速找到自己所需的内容,并对其进行个性化的访问?MPEG-7媒体内容描述规范使无法通过现有的搜索引擎查询视频、音频等内容的难题迎刃而解。本文分析了MPEG-7的描述方案,并重点分析了它的集中应用。 关键词:MPEG AV 描述符 描述方案 描述定义语言

  一、引言

  国际标准化组织(ISO)在制定MPEG-1、MPEG-2及MPEG-4的标准基础上,推出了新的标准MPEG-7,该标准的正式名称为“多媒体内容描述接口”(Multimedia Content Description Interface), 其目标就是产生一种描述多媒体内容数据的标准,满足实时、非实时以及推-拉应用的需求,它既不同于基于波形和基于压缩的表示方式如MPEG-1和MPEG-2,又不同于基于对象的表示方式如MPEG-4,而是将对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。

  二、MPEG-7的目标

  1.支持多种音频和视觉的描述

  描述包括自由文本、n维时空结构、统计信息、客观属性、主观属性、生产属性和组合信息。对于视觉信息,描述可能包括颜色、视觉对象、纹理、草图、形状、体积、空间关系、运动及变形等。对于音频信息,描述可能包括音调、调式、音速、音速变化等。

  2.根据信息的抽象层次,提供一种描述多媒体材料的方法以便表示不同层次的用户对信息的需求。

  3.支持数据管理的灵活性、数据资源的全球化和互操作性。

  三、MPEG-7构成要素

  MPEG-7的主要元素包括以下几种。

  1.描述工具,包括一组描述符D(Descriptor )和描述方案DS (Description Schemes )。描述符是指用来定义和表达实体某一方面特征的句法或语法。表达实体是由特征标识符(如颜色)和数据类型 (如字符串)等构成的。数据类型可以是“复合”的,既可以由几个数据类型的组合来构成,也可以由数个D来“描述”一个特征。描述方案是由一个或多个D和DS构成,DS规定了它们相互关系的结构和语法。

  2.描述定义语言DDL(Description Definition Language),用来指定描述方案的一种语言。它是一种模式化语言,是对音视频数据建模结果的一种表征。DDL规定了MPEG的描述工具,包括描述符和描述方案,并提供了把描述符构建为描述方案的规则。DDL同时也允许定义特殊应用中的扩展DS. 描述工具通过DDL被实例化,并以文本格式(XML)被描述。

  3.用来支持多路描述、同步问题、传输机理、文件格式等的系统工具。

  四、MPEG-7属性描述工具

  MPEG-7标准提供了一系列的属性描述工具对属性进行统一的管理,属性描述工具多用在多于一个媒体被描述时(如音频和视频)。这些描述工具根据功能分为内容描述、内容管理、内容组织、导航和访问以及使用者交互5类。

  1.基本元素(Basic Elements)

  基本的数据类型提供了一组对描述AV(Audio-Visual)内容有帮助的扩展的数据类型和数学类型,如矩阵和向量等。基本数据类型同时也能构建连接媒体文件、定位内容、描述时间、地点、人物等。正是这些基本元素通过DS规范构成了定义MPEG-7描述方案的基础。

  2.内容描述(Content Description)

  内容描述的目的是描述可察觉信息内容,用以表征可知觉的内容信息。内容描述包括结构和语义两个方面的内容。结构工具通过划分片断、帧、静态和动态区域来描述AV内容的时间及空间方面的结构信息。语义工具通过对象、事件、抽象观念和关系等描述了和AV内容所反映的现实世界。结构工具和语义工具通过链接共同作用,共同完成了对内容的描述。

  3.内容管理(Content Management) 内容管理用于处理那些与多媒体文档创建、媒体所有权和编码等相关的信息,即那些不能被抽象出来的信息。4.内容组织(Content Organization)内容组织提供一种来描述多媒体数据的分析和分类的方法,它可以用来描述一群对象的属性。

  5.导航和访问(Navigation and Access)

  导航和访问工具被用来定义音频、视频内容的一系列摘要,分解和变换信息,使浏览和获取AV内容更加便利。它包含概述、分解和变换三部分的内容。

  6.使用者交互(User Interaction)

  它描述了用户喜好以及使用信息等,使对媒体的访问变得更加个性化,为用户使用提供了方便。例如,可以根据用户的爱好来定义媒体的优先级,使用户尽快找到最适合的信息。

  五、MPEG-7的应用领域

  人们对日常生活中的多媒体信息,要求能高效率地进行访问、交互操作和显示。这就是MPEG-7 “Pull”(拉)和“Push”(推)的两类应用。这两类应用与社会的政治和经济有着密切的联系,在教育、影视等专业领域和消费应用的不同场合都是必不可少的。

  1.Pull类型

  MPEG-7标准产生的目的是要定义一种规范,使对AV资料的查询变得和现在的文本查询一样方便。尽管其公认的多媒体内容描述的应用远不止“获取”这一种,但它还是作为许多原始的MPEG-7应用而保留下来。这些“获取”,即“Pull”类型的应用涉及到数据库、多媒体信息档案以及基于网络的Intenet模型(用户向服务器索取资料)。

  以下是“Pull”类型的一些应用。

  (1)商业音乐类应用(卡拉OK和音乐销售)

  当用户从电视台看到一首歌,只要唱几段,就可不费力地从数据库中“搜索”出完整的歌曲来;在收取了适当的费用后,即可把整首乐曲下载到用户的计算机上。

  (2)声音效果库

  艺术家、声响设计师可以指定一个声效类型,然后从这个声源的众多变化中选择适合的需要。例如提供一个原型声响,指定细节特征,或者使用拟声,通过哼曲进行“搜索”的一种变形方式,来发出他想要找的那种类型的抽象声音。

  (3)历史数据库

  人们可以通过一些特定的关键词( “中华人民共和国成立啦!”)、关键事件(WTO)、演讲人(比尔?盖茨)、地点(首都)、日期(2001年9月11日),或者是以上几个方面的任意组合,来“搜索”一个音视频记录或其他相关事件。

  (4)通过可回忆的听觉事件进行电影场景“搜索”

  在人们的记忆世界里,许多的视觉事件是难以忘怀的。最明显的例子就是用特定的“描述”来指代电影电视场景或对白、音响等,用这样的方式查找到一部电影。

  2.Push类型

  “Push”与“Pull”类型的应用是相反的,“Push”类型应用更像是广播方式,以及刚出现的网络广播。“Pull”模型是从索引到“搜索”,“Push”模型是从选择到“过滤”。这两类应用有着完全不同的要求,通常“Pull”处理的是存储在数据库里的静态信息“描述”,而“Push”处理的是变化的动态信息“描述”。“Push”,即“过滤”的要求是提供用户只想收看或收听到的多媒体信息。

  如在数字系统中(包括数据广播),MPEG-7描述可以帮助用户选择节目和各类数据广播信息,用于当时或以后观看,以及记录、存贮。在个性化广播系统的环境中,提供给用户的数据可以按照各自的类型从数据广播中“过滤”出来,而类型的生成可以是自动的(如根据地点、年龄、性别、或以前的选择行为等),也可以是半自动的(如根据预设的兴趣等)。

  六、结束语

  MPEG-7的出现是文本信息时代向多媒体信息时代过渡的必然产物,在未来的多媒体信息检索服务中,MPEG-7必将发挥主导作用。目前,许多研究机构都已开始对其中的关键技术进行研究,并已取得一定成果,但离实际应用还有相当差距。随着MPEG标准和网络系统的快速发展,MPEG-7的应用也将蓬勃发展,为我们的学习和生活提供更多的方便。

  
----《中国多媒体视讯》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50