毕厚杰 李 涛
摘 要:首先描述了视频通信的几种主要应用,然后对视频压缩技术、视频传输技术特别是IP和无线网络视频传输的抗误码技术的一些新发展作了简要介绍,最后提出复杂度及这些新技术的实现方法。
关键词:视频压缩 视频传输 复杂度
应用现状
近10年以来,视频通信发展较快,业务范围日渐扩大,表现为以下几方面。
1.视频会议
利用视频数字压缩技术和传输技术,可使不同地点的人员犹如在一个会议室一样召开会议,节省了大量时间、费用,特别在争取时间、集思广益作决策时更显示其重要性。目前我国从中央到省、市以至县都已大量应用。
2.视频电话
视频电话原来也叫可视电话,除了面对面的通话功能外,现正发展成具有各种信息交互和任意切换功能的个人信息终端,可以进行视频通话,还可召开多人发言的会议,支持多路视频图像,具有电子文档共享,浏览网页等功能。
3.远程学习和培训
由于技术、管理体制等不断发展、更新,在职人员的培训、学习极其重要。目前,我国有的企业已经开始利用视频通信网络对职工进行远程培训教育。国外非常重视这种远程培训,我国还需加强。
4.远程医疗
可利用视频设备和网络进行远程医疗,这对于我国农村广大地区医疗水平相对较低、农民经济水平相对不高的情况十分适宜,应该大力推广。
5.网上游戏
计算机游戏市场十分巨大,只要组织和引导得好,对寓教育于游戏、丰富年轻人的生活、培养下一代有十分重要的意义和价值,在我国需进一步大力发展。
6.视频点播
数字电视的发展已迫在眉睫,怎样通过网络和视频点播方式让老百姓看到高质量、低价格、内容丰富健康的数字影片已是一个亟待解决的问题。
视频压缩技术
1.多编码模式的自适应选择
由于视频信息的内容千变万化,很难用一种固定的模型进行描述。有人为此进行过大量的尝试都失败了,有人甚至认为“视频压缩”不是一门科学。其实视频信息的规律就是多变,一幅图像内容可能是平坦的,也可能是多细节的;可能是静止的,也可能是运动的;而且同一幅图像中各个部分可能又是极不相同的。针对这种复杂情况,为了保证压缩质量,唯一的办法是把图像分成许多大小不同的块,对各个块按不同内容自适应地采取不同的编码模式。
在H.261,H.263,MPEG-1,MPEG-4中,把图像分成8×8或16×16的方块,然后对各个方块视其内容分成帧内、帧间、跳帧等不同编码模式。在H.264中,则更进一步细化成4×4方块,从而编码模式更能适应于内容的变化,如帧间编码用INTER表示,帧内编码用INTRA表示,跳帧用SKIP表示。
在H.264中采用了以下多种编码模式。
(1)帧内编码
帧内编码有INTRA-4×4, INTRA-16×16,INTRA-PCM,SKIP等。在帧内编码中,采用空间域的预测,INTRA-4×4中视内容不同又可进一步分成利用邻近像素的垂直预测、水平预测等9种预测模式,INTRA-16×16则用于平坦区,INTRA-PCM则采用直接传送像素不进行预测,以上共有12种不同编码模式。
(2)帧间编码
帧间编码有INTER-16×16,INTER-16×8, INTER-8×16, INTER-8×8,还有INTER-8×8的子模式,即INTER-8×8, INTER-8×4 ,INTER-4×8,INTER-4×4等8种。
(3)帧编码和场编码自适应方式选择
对于运动量较小的,则帧编码时邻行之间空间相关性大,故采用帧编码;对于运动量大的,则场编码邻行间的时间相关性大,故采用场编码。由于一帧中有一部分内容运动量大,有一部分内容运动量小,则又可在帧编码中进一步分成图像自适应帧场(PAFF)和宏块自适应帧场(MBAFF)等共三种模式。
如此众多的编码模式,根据内容的运动状况、细节等不同,采用自适应选择方式,视频质量显然可提高,但计算量也很大。
2.多种预测精度
(1)1/4象素精度的预测
过去,只采用整像素或1/2像素的精度进行预测,在H.264中可采用1/4像素精度进行预测。众所周知,预测精度越高,则压缩比越高。H.264中曾建议用1/8像素精度预测,后来停止使用的原因是太高的精度使编码复杂度增加,但压缩比增加不多。
(2)多参考帧选择
过去,在H.261等标准中,运动补偿时只选用前一帧作参考帧。为了进一步提高预测精度,H.264中可选用多至前后5帧的多参考帧(见图1)。
3.熵编码自适应技术
视频信息(或残差信息)经变换、量化后,利用熵编码可进一步压缩码率。以往在熵编码时由于只采用一张固定的码表,无法适应视频信息本身的统计特性,因此压缩比不高。
在H.264中采用了两种自适应的熵编码:上下文自适应变长编码(CAVLC)和上下文自适应二进制算术编码(CABAC),它们都利用待编码视频信息邻近已编码像素的统计特性,因而码率压缩比(编码效率)进一步提高,而后者编码效率更高,但计算更复杂些。
.R-D优化技术
由信息论可知,在一定失真D下,传输码率有一个最小值R,这时,如传送更低码率,其失真必大于D,也就是说R与D之间有一个优化的问题。我们的任务是在一定的传输码率R的限制下要求失真最小,即视频质量最好(见图2)。
仔细分析发现,这个问题十分复杂,牵涉到视频编码中一系列问题,首先是选择编码模式。如上所述,编码模式的种类很多,随着视频内容不同而不同。其次还有编码参数的选择,如多种量化节距(量化步长)、多种变换方式(DCT、小波变换……)、多种熵编码方法等。
最近发展了一种利用拉格兰其的R-D优化算法,其大体步骤如下(以帧间编码为例):
·找出以R-D优化为目标的运动矢量mi(这和以往的按当前宏块与参考宏块之间误差最小的目标是不同的);
其中,M为可能的编码模式集合,其失真项为:
其中,s,s'分别为当前块和参考块,Ai,x,y分别为当前块及其中的像素值,λMOTION 为选择运动矢量的拉格兰其常数。
上述公式,可选出R-D优化时的运动矢量mi。
·选择编码参数量化值Q(在编码模式已自适应选择时),利用拉格兰其方法实现R一定条件下,失真D最小,具体说是拉格兰其代价函数JMODE最小。
·通过调整Q值,计算出DREC和RREC,最后得到JMODE最小值,于是得到R-D最优时的Q值。
由以上可见,其计算量是相当大的。
5.视频信号的去方块后处理
为了提高视频质量,从根本上说,应使接收者的人眼在视觉上享受到一种高质量的图像。因此,现在发展一种解码环路的去方块滤波器,它既能滤去由于编码造成的人为的方块效应,又能保留原图像中应有的细节、边缘等。
综上可见,目前的视频压缩编码技术已有了重大进展,在同样码率下,利用以上新的编码技术,相对于H.263或MPEG-4可使码率降低一半,或者说同样码率下,峰值信噪比约有2 dB的提高,其代价是复杂度高(即计算量大)。由于高速DSP技术也有了重大进展,这类复杂度的问题应该说是可以解决的,当然对其编码方法的优化仍有不少工作需做。
IP和无线网络下的视频传输技术
1.IP网络的视频传输
这里的IP网络主要是公用的IP网,即INTERnet网。由于网络资源是共享的,当流量突然增大时往往导致网络的拥塞和缓存的溢出,于是丢包、误码等很容易发生。除以往编码标准中已有的多种图像分割、帧内片插入等防止误码扩散外,H.264中还包括如下各项。
(1)参数组
序列参数组包括有关属于该序列的图像信息,而图像参数组则包含所有属于该图像的所有条(slice)信息,它们都有不同的序列号位置,并放在每一编码片的片头上,由于有序号,这就可用来增强误码的恢复能力。
(2)灵活的宏块排序(FMO)
FMO(如图3)中一个图像由6×4 MB组成,其中黑片和白片各属不同的共两个片,这种FMO的宏块组成方式,显然可以提高抗误码能力。例如黑片丢失,即使黑片中所有宏块全丢失,也可利用领域的相关性,采用掩盖技术,由白片很容易得到近似的丢失的黑宏块,人眼几乎觉察不出已发生了丢包。
(3)冗余片(RS)
编码时在同一比特流中除基本信息(采用较低Q值)外,还包括冗余信息(采用较高的Q值),例如解码时,如基本片丢失,还可重建冗余片,从而得到一个较“粗”的重建图像。
(4)网络自适应层(NAL)句法结构
NAL和以往标准不同,在 H.264中设置NAL层,把一个数据包(采用RTP/RTCP规程)放在一个NAL单元中,它的句法结构可适用于各种不同网络,它的头信息结构见图4,全长8 bit,其中T为类型,长5 bit,包括32个不同类型的NAL单元;R为2 bit,指示该NAL单元的重要性,分四个等级,用于不同的误码保护;F为1 bit,指示该单元是否有误码(正常为0,误码为1)。可见NAL的句法结构充分考虑到不同网络环境下的误码保护。
2.无线网络的视频传输
(1)传输包和片都应较短
不同误码格式和不同包长其丢包率是不同的(见表1)。
传输包短些,则丢包率低些,包长1 000 B时丢包率低于5%(见图5)。带有包的片也自然不宜长,设片的目的是防止了误码扩散,因为片本身是自我包含的,不能利用其他片来预测当前片。
(2)瞬时解码更新(IDR)
除了有规则的帧内编码插入以防止误码扩散,还应配有解码的瞬时更新,以防预测误码的进一步扩散。
(3)FEC,ARQ及误码跟踪的组合
前向纠错(FEC)已广泛地用于检测和纠正误码,在H.261和H.263中,利用(511,493)的BCH码,可纠正每个包2 bit随机误码,但不能纠正突发误码。帧交织可缓解这个问题,但它会带来一定时延,在实时视频通信不宜采用FEC。由于视频流中各个符号在不同位置重要性不同,可利用FEC对重要的符号进行不等误码保护(VEP)。
自动重复要求(ARQ)也是通信中已被广泛应用的纠错技术,它能有效地恢复丢失的包和纠正突发误码,但它需要有一个反馈信道,因此广播电视中不能采用该技术。ARQ另一个问题是环路时延较长。
误码跟踪是另一种减少误码的方法,它利用从ARQ得到的丢包信息跟踪解码器性能,并采用帧内方块停止误码扩散,但它需要容量较大的缓存器。
把FEC,ARQ和误码跟踪等技术很好地组合起来,可获得相当好的抗误码效果。
(4)低时延的ARQ技术
如上所述,ARQ会引入较大时延,为此,某些文献提出了一种无线环境下低时延的ARQ技术,即在基站设置一个视频代理服务器,它可适用于H.261,H.263,MPEG-1,MPEG-2,MPEG-4以及H.264中。对“Foreman”视频序列的实验表明,在随机误比特率10-3的恶劣环境下,利用该技术,亮度信号的PSNR仅降低 0.35 dB。
无线视频通信网络见图6,时延TARQ见公式(8):
其中,p为丢包率,T环为环路时延。
如在基站设置ARQ代理服务器,则可大大减少TARQ。分析得到:
其中,Pω1,Pω2为无线链路的丢包率,Pg为有线链路的丢包率。Tω1net,Tω2net为无线传输时延,Tgnet为有线网络传输时延。200 ms,又设无线环境下丢包率Pω1=Pω2=2×10-2,有线网络丢包率Pg=10-6,则设置ARQ视频代理服务器平均时延TARQ2=0.82 ms,而不设ARQ代理服务器,由公式(8)可得点到点的TARQ=18ms。可见,不设和设代理服务器,其TARQ差22倍。当然这是理想值。但可见,这种设ARQ代理服务器后时延大大减少确是不争的事实,从而可在视频实时通信中利用ARQ和FEC等。
复杂度估计
由上述视频压缩技术的新发展,可知视频压缩比和质量都有了显著提高,但其代价是计算量大,复杂度高。随着DSP技术的进一步发展,现在已开发了若干高速视频处理芯片,如TI公司的DM642和EQATOR公司的BSP-15等,其运算能力均在4 000 MIPS以上,能满足H.264等高速需求。当然,优化和改进这些新编码算法仍有不少工作要做。
毕厚杰 南京邮电学院、上海交通大学教授 博士生导师 南京大学教授
李 涛 南京大学博士研究生
摘自《世界电信》
|