网络中流媒体关键技术研究
发布时间:2006-10-14 4:14:41   收集提供:gaoqian
张鲲 南京邮电学院


  摘要 流媒体技术是在数据网络上以流的方式传输多媒体信息的技术。随着宽带网络的发展,流媒体技术的相关应用必将成为未来高速网络的主流应用之一。本文就流媒体的一些关键技术、机制和相关协议等方面做了较为详细的介绍。

  关键词 流媒体 QoS 视频压缩 连续媒体分布服务 媒体同步

1 引言

  近年来,随着计算机技术、压缩技术以及网络技术的发展,网络中的流媒体业务也得到了飞速的发展和应用。所谓流媒体就是指在Internet/Intranet中使用流式传输技术的连续时基媒体。本文中着重介绍视频流。目前在Internet上传输视频还有许多困难,其根本原因在于Internet的无连接每包转发机制主要是为突发性的数据传输而设计的,不适用于对连续媒体流的传输。为了在Internet上有效地、高质量地传输视频流,还需要多种技术的支持,例如基于视频的压缩编码技术、应用层QoS技术、连续媒体分布服务、流服务器、媒体同步技术和相关协议等。

  其中,原始视/音频经过视/音频压缩算法的预压缩存储在存储设备中。响应客户请求时,流服务器从存储设备中获得视/音频数据,应用层QoS控制模块根据网络状态和QoS要求来改变视/音频比特流。然后通过传输协议把压缩过的比特流打包并且发送到网上。由于拥塞数据包可能出现丢包或者过度时延。为了提高视/音频的传输质量,网络中配置了连续流媒体分布式服务。对于成功传输的数据包,它们首先通过传输层,然后在进行视/音频解码前经过应用层处理。为了获得在播放中的视频和音频的同步,还需要媒体同步机制。从上图中可以看出,这六个部分有着紧密的联系而且都是流媒体结构的组成部分。

2 流媒体中的关键技术

2.1 视频压缩及编码

  目前网络是异构性的,缺乏QoS质量控制,并且带宽也在很大范围内变化。传统的不可扩展性视频编码的目标是将视频压缩成适合一个或者几个固定码率的码流,是面向存储的,因此不适合网络传输。为了适应网络带宽的变化,面向传输的可扩展性编码的思想应运而生。可扩展性编码[2]就是将多媒体数据压缩编码成多个流,其中一个可以独立解码,产生粗糙质量的视频序列,它适应最低的网络带宽,称为基本层码流;其他的码流可以按层为单位在任何地点截断,称为增强层,用来覆盖网络带宽变化的动态范围,它们不可以单独解码,而只能与基本层和它以前的增强层联合在一起解码,用来提高观看效果。因此,可扩展性码流具有一定的网络带宽适应能力。

  可扩展性编码主要分为时域可扩展性编码、空域可扩展性编码和质量可扩展性编码。可以选择在时间、空间和信噪比(SNR)中的一个或者几个方面实现扩展。考虑到编码效率和复杂性两方面,MPEG组织采纳了精细可扩展性编码(FGS)和渐进的精细可扩展性编码(PFGS)[3]。精细可扩展性视频编码采用位平面(bitplane)编码,它的基本层使用基于分块运动补偿和DCT变换的编码方式达到网络传输的最低要求,增强层使用位平面编码技术对DCT残差进行编码来覆盖网络带宽的变化范围,它每一帧的增强层码流可以在任何地点截断,解码器重建的视频质量和收到并解码的比特数成正比,它可以实现连续的增强层速率控制。FGS虽然具有很好的可扩展性,但是效率太低,PFGS在保留了FGS所具有的网络带宽自适应和错误恢复能力的同时,还有效地提高了编码效率。但是可扩展性编码的效率较非可扩展性编码而言,还有一定差距。为了进一步压缩FGS和PFGS的基本层码流,有专家提出一种称为精细的空域可扩展性(Fine-Granularity Spatially Scalable,FGSS)的视频编码算法,使低分辨率和高分辨率的增强层码流都可以在任何地点截断,具有极强的网络带宽适应能力和错误恢复功能,同时保持了空域可扩展性编码的多分辨率特性,它可以满足拥有不同网络带宽和不同分辨率接收设备的许多用户的需求,性能得到了更大的提高。

  结合多种视频编码技术来适应网络上的QoS波动是今后可扩展性视频编码的发展方向。比如,可扩展性视频编码可以适应网络带宽的变化;错误弹性编码可以适应丢包;DCVC(Delay Cognizant Video Coding)可以适应网络时延。这三种技术的结合可以更好地提供一种应对网络QoS波动的解决方案。

2.2 应用层QoS控制技术   由于目前的Internet只提供Best-effort的服务,所以需要通过应用层的机制来实现QoS的控制。QoS控制技术主要集中在对网络带宽的变化进行响应和处理分组丢失的技术上,主要可以分为两类:拥塞控制技术和差错控制技术。

  拥塞控制的目的是采用某种机制应对和避免网络阻塞,降低时延和丢包率。常用的拥塞控制机制有速率控制和速率整形。对于视频流,拥塞控制的主要方法是速率控制。速率控制机制试图使一个视频连接的需求与整个连接链路的可用带宽相匹配,这样可以同时使网络拥塞和包丢失率达到最小。速率控制机制主要包括基于源端的、基于目的的以及混合速率控制。在基于源端的控制机制中,视频源端收集反馈信息,进行控制计算并采取相应的控制动作。这种方法在因特网中被率先采用,但是在异构网络中的运行情况并不是很好。基于目的端的控制机制则主要根据所接收的视频流的状况向上层反映相应的统计信息,实时调整缓冲及播放内容,并力图使节奏均匀,这种机制使用较少。混合性速率控制的方法兼有前二者的特点,即目的端增加减少通道,而源端同时根据反馈调整各个通道的速率。混合速率控制方法的一个例子是目标集分组的方法。

  拥塞控制只能减少数据包的丢失,但是网络中不可避免的会存在数据包丢失,而且到达时延过大的分组也会被认为没有用而被丢弃,从而降低了视频质量。要改善视频质量就需要一定的差错控制机制。差错控制机制包括:

  (1)前向纠错(FEC):FEC是通过在传输的码流中加入用于纠错的冗余信息,在遇到包丢失的情况时,利用冗余信息恢复丢失的信息。它的不足是增加了编码时延和传输带宽。

  (2)延迟约束的重传。通常流的播放有时间限制,因此,仅有当重传的时间小于正常的播放时间时,重传才是有价值的。

  (3)错误弹性编码(Error-Resilient Encoding):在编码中通过适当的控制使得发生数据的丢失后能够最大限度的减少对质量的影响。在Internet环境下,最典型的方法是多描述编码(MDC)。MDC把原始的视频序列压缩成多位流,每个流对应一种描述,都可以提供可接受的视觉质量。多个描述结合起来提供更好的质量。该方法的优点是实现了对数据丢失的鲁棒性和增强的质量。其缺点是相比单描述编码(SDC),它在压缩的效率上受到影响。而且由于在多描述之间必须加入一定的相关性信息,这进一步降低了压缩的效率。

  (4)错误的取消(concealment):错误的取消是指当错误已经发生后,接受端通过一定的方法尽量削弱对人的视觉影响。主要的方法是时间和空间的插值(Interpolation)。近年来的研究还包括最大平滑恢复,运动补偿时间预测等。

2.3 连续媒体分布服务

  连续媒体分布服务(continuous media distribution services)的目的是在Internet 尽力服务的基础上提供QoS和高效的音/视频传输,包括网络过滤(Network Filtering)、应用层组播(Application-Level Multicast)、内容复制(Content Replication)等,下面分别进行详细介绍。

  网络过滤:网络过滤是拥塞控制的一种,不仅可以提高视频质量,还可以提高带宽利用率。不同于发送端的速率整形,网络过滤是在流服务器和客户端之间的传输路径上通过虚拟信道连入过滤器,该过滤器根据网络的拥塞状态实现速率的整形。网络过滤通常采用的是丢帧过滤器(frame-dropping filter),其基本方法是客户端根据网络丢包率向过滤器发送请求来增减丢帧速率,以调节媒体流的带宽。这种速率整形可以在拥塞点进行,这样可以提高速率控制的效率和拥塞控制的响应时间。

  应用层组播:IP层的组播存在诸如可扩展性、网络管理和对高层应用的支持(例如差错控制,流量控制和拥塞控制)等屏障。应用层组播机制打破了IP组播的一些障碍,其目的在于构建网络上的组播服务,可以以更灵活的方式实现组播控制。它允许独立的CSPs和ASPs等建立它们的Internet组播网络,这些组播网络可以互连成为更大的媒体组播网络。媒体组播网络可以利用内容分布网络的互连,通过在不同种类的服务提供者(比如ISPs、CSPs和ASPs等)之间的应用层的对等关系来构建。媒体组播网络中每个具有组播能力的节点称为媒体桥(MediaBridge),它做为应用层的路由。每个媒体桥和一个或多个相邻的媒体桥通过明确的配置互连,这个互连建立了应用层重叠拓扑。媒体桥在媒体组播网络中用分布式应用层组播路由算法来确定一条优化的虚拟组播路径。如果网络不通或者过度拥挤,媒体组播网络会自动的根据应用层路由规则来重新确定路径。并且,只有当下游客户端需要某媒体内容时,媒体桥才会传输它。这就确保了不管客户端的数目而只有一个媒体流,从而节约了网络带宽。

  内容复制:内容/媒体复制是提高媒体传输系统可扩展性的一项重要技术。内容复制具有以下优点:

  (1)降低网络连接的带宽消耗。

  (2)减轻流服务器负荷。

  (3)缩短客户端时延。

  (4)提高有效性。它主要有两种形式:caching(缓存)和mirroring(镜像)。镜像是把原始媒体内容拷贝到网络上其他分散的备份服务器中。用户可以从最近的备份服务器上获得媒体数据。缓存则是从原服务器中获得媒体文件,然后传输给客户端,同时在本地做备份。如果缓存中已经存在客户端需要的数据,缓存就会把本地拷贝传给用户而不是从传送原服务器中的媒体数据。

2.4 流服务器   视频服务器在流媒体服务中起着非常重要的作用。当视频服务器响应客户的视频流请求以后,它从存储系统读入一部分视频数据到对应于这个视频流的特定缓存中,再把缓存的内容通过网络接口发送给相应客户,保证视频流的连续输出。目前存在三种类型的视频服务器结构[4]:

  (1)通用主机方法。采用计算机主机作为视频服务器。它的主要功能是存储、选择、传送数据。缺点是系统成本高而且不利于发挥主机功能。

   (2)紧耦合多处理机。把一些可以大量完成某指令或者专门功能的硬件单元组合成的专用系统级联起来,就构成了紧耦合多处理机实现的视频服务器。这种服务器费用低、性能高、功能强,但是扩展性较差。

  (3)调谐视频服务器。这种服务器主板上有一个独特微码的嵌入式仿真器控制。通过在主板中插入更多的服务通路,可以方便地进行扩展。

  对于流服务器,如何更有效支持VCR交互控制功能;如何设计磁盘阵列上多媒体对象高效可靠的存储和检索;如何设计更好的可伸缩多媒体服务器;如何设计兼有奇偶和镜像特性的容错存储系统是目前研究的重点。

2.5 媒体同步

  所谓媒体同步是指保持一个数据流或者不同媒体流之间的时间关系。通常有三种类型的 同步控制:流内(intra-stream)同步、流间(inter-stream)同步和对象间(inter-object)同步。由于网络时延,导致媒体流在传输过程中失去同步关系,媒体同步机制可以确保客户端正确地恢复媒体流的同步。媒体同步机制实际上就是在媒体内或者媒体间说明其时间关系。说明时间关系的方法有:基于间隔的方法、基于轴的方法、基于控制流的方法和基于事件的方法。对于连续媒体,应用最为广泛的说明方法是基于轴的说明或时间戳。时间戳法是在每个媒体的数据流单元中加进统一的时间戳或时间码,具有相同时间戳的信息单元将同时予以表现。在发送时,将各个媒体都按时间顺序分成单元,在同一个时间轴上,给每个单元都打上一个时间戳,处于同一时标的各个媒体单元具有相同的时间戳。在各个媒体到达终端后,让具有相同时间戳的媒体单元同时进行表现,这样就得到了媒体之间同步的效果。对与终端系统而言,同步机制包括阻止(preventive)机制和纠正(corrective)机制。前者是主要通过减小延迟和抖动来减少同步错误,后者主要是在发生同步错误之后恢复同步。考虑到Internet传输的延迟随机性,同步错误是不可避免的。因此,在接受方的错误补偿是必须的。

  另外,同步多媒体集成语言SMIL(Synchronized Multimedia Integration Language)是由3W(World Wide Web Consortium)组织规定的多媒体操纵语言。可以实现多个流和文本信息在播放时的时间同步控制和空间位置布置。通过SMIL还可以实现一定的用户交互功能。

2.6 流媒体相关协议

2.6.1 实时传输协议(RTP)与实时传输控制协议(RTCP)

  RTP(Real-time Transport Protocol)和RTCP(Real-time Control Protocol)都是基于IP的应用层协议。RTP为实时音/视频数据提供端到端的传送服务,包括有效载荷类型标识、序列标号、时间标签和源标识,可以提供时间信息和实现流同步。由于TCP中重传机制会引起时延,通常RTP运行于UDP之上,但是也可以在TCP或者ATM等协议之上运行。RTP本身并不提供可靠的传送机制,也不提供流量控制或者拥塞控制,而是通过与RTCP配合使用,使传输效率最佳。RTCP用来监视服务质量和在会议过程中交换信息。它提供QoS反馈、参与者标识、控制包缩放、媒体间同步等服务。RTCP包中包含已发数据包的数量、丢失数据包数量等统计资料。服务器可以根据这些信息动态的改变传输速率甚至有效载荷类型。

2.6.2 实时流协议(RTSP)   RTSP(Real-time Streaming Protocol)是由RealNetworks和Netscape共同提出的一个应用层协议。它可以在媒体服务器和客户端之间建立和控制连续的音/视频媒体流,协同更低层协议RTP、RSVP等一起来提供基于Internet的整套流式服务。RTSP提供了一种可扩展框架,使得可控的、点播的实时数据的传送成为可能。它提供用于音频和视频流的“VCR模式”远程控制功能,例如暂停、快进、快退和定位。支持单播和组播。RTSP还提供选择发送通道的方法(如UDP、组播UDP和TCP)和基于RTP的发送机制。RTSP像是媒体服务器和客户端之间的“网络远程控制”,它提供多种服务,如从媒体服务器上检索媒体、邀请媒体服务器进入会议、添加媒体到现成节目。RTSP在语法和操作上类似于HTTP,因此许多HTTP的扩展机制都可以移植于RTSP上。在RTSP中,每个节目和媒体流由RTSP URL确定,全部节目和媒体特性都在节目描述文件中给予了描述,包括编码、语言、RTSP URLs、目的地址、端口号以及其他参数。但是,不同于HTTP的无状态和非对称,RTSP是有状态的、对称的协议。RTSP的服务器保持会话状态以连接RTSP流的请求,并且服务器和客户端都可以发出请求。

2.6.3 资源预留协议(RSVP)   资源预留协议[5](Resource Reserve Protocol)是运行于传输层的一个网络控制协议。RSVP允许数据流的接受方请求特殊的端到端QoS。RSVP是非路由协议,它同路由器协同工作,在传输路径的路由器上预留必要的带宽,减少网络的时延和抖动。RSVP的流程是单一的,并不区分发送方和接受方,且支持单播和组播,适应于可变成员个数和路由。RSVP领域的发展非常迅速,但是目前它的应用只限于在测试的小Intranet网络上。

3 结论   技术的进步和用户的需求促进了流媒体应用的迅速发展。在远程教育、数字图书馆、电子商务、视频点播、交互电视、远程医疗、网络音/视频、实时多媒体会议等方面,流媒体技术都起到很重要的作用。本文对网络中流媒体业务的关键技术和相关协议做了研究,并探讨了未来流媒体技术发展的方向。我们相信,随着流媒体应用的不断普及,宽带流媒体技术及其应用必然会在未来的网络中发挥更重要的作用,并在一定程度上改变人们使用网络的方式。

参考文献

[1] Dapeng Wu,Yiwei Thomas Hou,Wenwu Zhu,Ya-Qin Zhang,Jon M. Peha.Streaming Video over the Internet:Approaches and Directions [J].IEEE Transactions on Circuits and Systems for Video Technology,2001;11(3):282-300

[2] Marta Mrak,Mislav Grgic,Sonja Grgic.Scalable Video Coding in Network Applications[C].In:Video/Image Processing and Multimedia Communications 4th EURASIP-IEEE Region 8 International Symposium on VIPromCom,2002

[3] Feng Wu,Shipeng Li,Ya-Qin Zhang.Progressive Granular Scalable(PFGS) Video Using Advance-Predicted Bitplane Coding(APBIC)[C]. In:the Proceedings of the 35th Annual Hawaii International Conference on System Sciences(HICSS35),Hawaii,USA,2002

[4] 吴国勇,邱学刚,万燕仔.流媒体技术与应用[M].北京:北京邮电大学出版社,2001

[5] Lixia Zhang,Stephen Deering,Deborah Estrin,Scott Shenker,Daniel Zappala.RSVP: A New Resource ReSerVation Protocol[J].IEEE Communications Magazine,2002,40(5):116-127


----《中国数据通信》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50