互联网视讯业务图像质量的评估标准与方法
发布时间:2006-10-14 4:14:06   收集提供:gaoqian
  中国电信上海研发中心 罗斯青 孙 晶

  由于图像质量直接反映了用户使用互联网视讯业务时的主观感受,图像质量的优劣对于互联网视讯应用的推广和运营商提高服务质量都有重要意义,因此有必要研究评估图像质量的标准。目前,国际上尚无针对互联网视讯应用的图像质量评估标准,本文从相对评估和绝对评估两个方面,分析了互联网视讯应用在信源端和接收端造成图像质量损伤的原因,并对评估的标准与方法做了探讨。

  一、图像质量评估方法与标准

  当前对图像质量的评估方法主要分成两类:主观评价和客观测量。主观评价的方法与标准已相对完善,而客观测量则处于热点研究中。

  1.主观评价

  主观评价的方法是将待评价的图像序列播放给评论者观看,并记录他们的打分,然后对所有评论者的打分进行统计,得出平均分作为评价结果。ITU-RBT.500-7标准定义了两种标准的主观评价方法。

  (1)双刺激连续质量分级法(DSCQS:DoubleStimulusContinuousQuality Scale ),将待评估的图像序列和相应的基准序列交替播放给评估者看,每个图像持续时间为10s,按此播放顺序在处理图像的前后都有一个直接的质量比较。每个图像之后有2s的灰画面间隔,评估者可在此期间打分。最后以所有分数的平均值作为该序列的测试值。这样做的好处是能够最大程度地降低图像场景、情节等对主观评测的影响。

  (2)单刺激连续质量评价方法(SSCQE:SingleStimulusContinuous Quality Evaluation):这种方法只把被评价的图像序列播放给评估者看。评价时间长达30s,评估者在观看的同时通过调节一个滑板的位置指向相应的评价分值给出评分。

  很显然,主观评价有几个显著的不足之处:

  (1)观察者一般需要是一个群体,并且经过培训以准确判定主观评测分,人力和物力投入大,为时较长;

  (2)图像内容与情节千变万化,观察者个体差异大,容易发生主观上的偏差;

  (3)主观评价无法进行实时监测;

  (4)仅仅只有平均分,如果评测分数低,无法确切定位问题出在哪里。

  2.客观测量

  客观测量基于仿人眼视觉模型的原理对图像质量进行客观评估,并给出客观评价分。近几年,随着人们对人眼视觉系统研究的深入,客观测量的方法和工具不断被开发出来,其测量结果也与主观评价较吻合。国际上也成立了ITU-R视频质量专家组(ITU-RVQEG:VideoQualityExperts Group)专门研究和规范图像质量客观测量的方法和标准。

  VQEG规定了两个简单的技术参数:峰值信噪比(PSNR)和均方差(MSE)。此外,还有许多图像质量模型,这些模型在测量图像质量时都基于人眼视觉特性。图1是一种典型的基于解码图像与基准图像差值的图像质量客观测量模型。



图1基于解码图像与基准图像差值的质量模型


  如图1所示,该模型的输入是原始信号和待测的解码信号,输出是两个输入图像上各像素幅值之差的和。在整个处理过程中考虑了人眼对图像差别的主观感觉特性,以使测量结果与主观评价所得结果相吻合。模型中的估算考虑了人眼的非线性、视觉滤波器、人眼的屏敝效应、差值求和。为了使客观测量与主观评价结果一致,还要使最后所得的数值范围和等级描述与主观测试相对应,对客观测量的数值进行线性转换。这个任务在与主观评价匹配这一级完成。

  图像质量的客观测量方法分为两类:“相对评估”(RelativeEvaluation)和“绝对评估”(AbsoluteEvaluation)。

  相对评估:将处理过的视频(压缩或经传输)与原始视频比较以获得相对评估的指标值,并根据这些指标值评估图像质量;相对评估一般用于片源制作时的质量评估,准确性高。

  绝对评估:直接对处理过的视频(压缩或经传输)进行评估以获得绝对评估的指标值,并根据这些指标值评估图像质量;绝对评估一般在线观看测试,准确性不如相对评估。

  采用客观测量工具,不仅减少了对人力、物力的需求,而且测量时间大大缩短,甚至可做到实时监测。

  由于主观评价的标准与方法已较完善,以下主要探讨了在互联网视讯应用的信源端和用户接收端两种环境下对图像质量的影响因素以及客观测量方法。

  二、互联网视讯应用信源端的图像质量评估

  1.信源端影响图像质量的原因

  信源端引起图像质量劣化的原因主要是编码器。当前主流的H.263和MPEG-2视频压缩编码算法都是基于离散余弦变换(DCT)的。由于DCT变换是以8×8宏块为基本单元进行(改进的算法可以4×4或更小的宏块为单元),每个宏块单独编码,变换后又对DCT系数按照高、低频系数进行非线性量化。量化结果按四舍五入的原则进行取舍,因此量化后接近零的高频系数都定为零,只剩下少数的非零低频系数。

  由于在图像中,低频系数表示了图像的轮廓,高频系数代表图像细节,因此从DCT的原理可以得知,许多细节在DCT变换后从宏块中消失,而且这种图像质量的劣化是单向不可逆的。同事由于直流和低频流系数越过相邻量化级的判决门限,使相邻块的平均亮度差别加大,在块边界造成亮度突变,使重构图像上出现明显的块结构。在块边界出现的信号跳变,破坏了图像边缘的连续性,这些跳变产生有规律的几何排列,使重构图像边缘呈锯齿状。块结构和锯齿状都是重构图像的噪声。

  编码引起图像变化的另一原因是时间预测,是在P帧和B帧编码引入的。用于预测的图像内容来自经编码又解码的I帧或P帧(参考帧);其图像变化又在预测图像中重复。参考帧中的块边界信号跳变又在预测图像的块上出现,使P帧和B帧的块效应更加严重。

  信源端的图像质量评估方法同样包括主观评价与客观测量。

  2.信源端图像质量的客观测量

  信源端的图像质量客观测量一般采用相对评估,即在编码时将压缩过的图像与原始图像比较以获得相应指标的值,综合多个指标值对图像质量进行评估。

  用于信源端的相对评估模型如图2所示。



图2信源端的图像质量相对评估


  图2中的相对评估系统可以采用上文提到的基于解码图像与基准图像差值的质量模型,也可采用其他模型。

  相对评估系统衡量指标按照评估域分类可分为:空间域(Spatial)指标和时间域(Temporal)指标。

  空间域指标:用于考量前后图像帧之间比较的指标。

  时间域指标:同时考量连续的两帧或多帧图像时使用的指标。

  具体的,主要包括以下指标:

  PSNR:亮度的峰值信噪比,属空间域指标;

  SNR:亮度的信噪比,属空间域指标;

  RMSE:亮度的均方差根(Rootmean square error),属空间域指标;

  活动能量差:额外的能量表明有差错块和噪声,属时间域指标;

  重复帧:缺少的能量表明有缺帧,产生图像颠簸,属时间域指标;

  边缘能量差:表明丢帧或重复帧,属空间域指标;

  水平和垂直边缘能量:额外的边缘能量表明边缘有噪声、块效应或边缘噪声,属空间域指标;

  空间频率差:缺少的边缘能量标明出现模糊,属空间域指标。

  三、互联网视讯应用用户接收端的图像质量评估

  1.用户接收端影响图像质量的原因

  互联网视讯应用中,用户收看到的图像是经过网络传输和解码后的重构图像。由于互联网是基于“尽力而为”的服务模型,因此无法保证端到端的传送质量。影响用户接收图像质量的因素主要有:

  (1)可用带宽:主要衡量用户从网络取得互联网视讯应用数据的能力,当可用带宽低于所点片源的编码速率时,图像质量无法保证;

  (2)延时:互联网视讯应用是实时性业务,尽管播放器都有一定的缓存能力(典型的为5s),但当延迟超出缓存能力时,迟到的包将被播放器丢弃,从而影响图像质量;

  (3)丢包:丢包是导致图像质量劣化的最本质原因,由于媒体数据是前后关联的,并且不同的数据包对于重构图像的重要性不同,因此即时少量的丢包(如I帧数据的丢包)也可能引起解码器主动丢弃其他相关的数据包,引起质量下降;

  (3)抖动:一般媒体播放器是针对稳定的码流,当抖动过大时会导致解码器主动丢包引起图像质量下降。

  根据中华人民共和国通信行业标准送审稿《IP网络技术要求——网络性能参数与指标》中规定,进行互联网多媒体传输时,网络性能要求达到1级或1级以上,即如表1所示。



  图像质量的绝对评估模型主要基于以下评估指标:

  (1)图像跳跃(jerkiness):指图像看起来不平滑,有类似“快进”时的现象。造成的原因可能是:网络拥塞等造成的丢包,编码器受固定码率(CBR)限制而引入的丢包或缺帧,帧率忽然下降。

  (2)块效应(blockiness):块效应是所有基于DCT技术压缩可能出现的现象。造成的原因主要是传输误码,因为DCT变换是整个块进行的,一个误码将影响整个DCT反变换的结果。

  (3)模糊度(blur):模糊度指图像高频细节部分丢失造成的图像边缘拖尾现象。造成的原因可能是编码器为了适应固定码率而主动引入的,另外传输差错和丢包同样会引起模糊。

  (4)噪声(noise):图像噪声指的是由于高频细节劣化产生的附加象素点,类似“雪花”现象。造成的原因主要在于片源侧,例如采用磁带记录视频时容易产生“雪花”噪声。另外传输差错(误比特)也会产生噪声。

  (5)振荡(ringing):振荡指的是在图像的高对比度边缘出现波纹,造成的原因是图像数字处理中的吉布斯(Gibb’s)现象。

  (6)数字水印(watermarking):数字水印主要用于图像或视频的版权保护,在图像中加入数字水印要求对还原的图像内容质量影响最小。由于数字水印是在将数字图像的部分内容进行变换处理的基础上形成,这个过程会引入水印噪声。

  五、结束语

  电视广播领域图像质量主观评价的标准已相当完善,但对于互联网视频应用领域图像质量的主观评价和客观测量是近几年才兴起的一个研究热点。目前国际组织VQEG正在积极研究制定相关的评估标准和方法,还没有推出针对相对评估和绝对评估具体的指标值和计算方法。但已有不少相关的研究成果,如日本Genista公司已开发出MediaOptimacy软件,能够针对图像质量的图像跳跃、块效应、模糊度等进行评估,但评估的准确性仍有待验证。

  为了能够达到实时测量,指标值的规范和测量工具的开发将是图像质量客观评估下一步研究的重点。


----《通信世界》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50