电视广播中的音频嵌入技术
发布时间:2006-10-14 4:15:25   收集提供:gaoqian
天津电视台播出部主任 于建华
前言

  天津电视台的全数字音频嵌入(EMBEDDED AUDIO)电视节目播出中心,自1997年开始筹建,于1998年10月1日正式启用运行。三年多的播出实践,充分地体现了电视播出中心数字化的优越性:系统合理、设备稳定、实时播出、准确无误、图象透亮、音质优美、传输无损,达到了预期要求。

  新建的电视播出中心由三个节目分控(节目播控机房)和播出总控(节目调度机房),以及节目传输机房和计划中的直播间组成。分别承担我台三个频道自办节目的播放、调度和传输,以及卫星节目的接收与资料的录制。包括一个预留播控机房,总面积约有550平方米。

  在电视设备由模拟方式向数字化过渡的当今,新建电视播出中心必须搞好定位。首先要保证电视播出的安全优质,还要遵循客观规律,提倡科学、先进、完善、可行。经过一年多的外出调研、方案论证,以及设备选型和安装调试,建成了全数字电视播出中心,任何电视信号或电视节目磁带,进入系统后,均实现数字化的处理和传输。为了适应模拟电视和数字电视并存的现状,在播出中心的构成中,本着不再添置模拟电视设备的原则,利用了部分原有的模拟设备,处理外来的模拟电视信号,经相应的转换设备,与数字系统相通播出,这样无论是模拟信号还是数字信号,都各有各的归宿,在系统中达到“连锁互补”。在实现播出中心全数字化的同时,为保证电视图象和伴音的协调一致,本着科学审慎的态度,敢于创新的精神,采用了音频嵌入新技术,开创了在电视播出系统中使用的先例,取得了很好的效益。

一、 音频嵌入技术在电视 播出系统中的应用

1、 电视播出系统采纳音频嵌 入技术的提出

  随着电视数字理论日趋发展,数字电视设备的逐步深化,在电视信号模数转换和传输的过程中,视频信号和音频信号的处理方式和特点,有着不同的差异,导致数字视频滞后于数字音频,表现在图象和声音不协调和谐的问题也显得明显起来。

  在电视节目播送中,视频信号制约于相应的音频信号,达到互相同步,或利用数字视频信号对数字音频信号加以携带,形成一个有机统一的整体(音频嵌入技术),是我们在数字电视播出系统设计中,极为关心的问题,以使受众得到声画同步的完美的电视图象。

2、 数字化的电视播出和节目传输中图象伴音协调一致的实现

(1)数字音频信号加以延时,实现音视频的相对协调

  数字电视系统中视频和音频的延时差,可以通过实地测量,在系统中添置相应的音频延时器,达到音视频的协调一致,这是最简易的办法。数字音频延时器有人工预调谐和随视频信号的变化自动控制两种,一般在音视频信号分离的系统中采用。 (2)采用多工复用技术,使音视频信号有机统一

  电视视频信号的模数转换方式,随模拟信号的构成不同(指复合和分量方式),而有一定的差异,数字拾取后的数据传输方式也有并行和串行之分,但都有一个共同的特征,那就是在共同的部位,如视频数字信号的行消隐期间,空余的空间可携带数字信息,在这个空间里,根据不同方式,把数字音频和其他辅助数据加以携带传送。对于数字视频信号来说,数字音频和辅助数据按规定位置相嵌于其身,可称为音频嵌入。

3、 音频嵌入技术在电视播出 系统中的实现

(1)音频嵌入技术在电视播出系统中的实施方案

  如图1所示。通过矩阵开关选择的两路音频嵌入SDI(Serial digital interface)信号,(A1、B1)送至视频处理器作混合或特技切换处理,同样的两路(A2、B2)经解嵌处理的数字音频信号,送至音频处理器作相应的变换,处理后的视频信号和音频信号,再按初始的相对时间关系,在嵌入器中重新将音频信号嵌入。这里要说明的是,整个的处理过程,都是在控制数据处理器的指令下进行工作,以保证时间关系的准确无误。

(2)播控切换台的选择

  具有处理嵌入音频的数字分量串行视频数据流信号(SDI)功能。具有完善的视频处理、音频处理和灵活的加嵌、解嵌设施,并能达到音视频的统一和谐。适用于电视节目播出使用。要求结构简单适用,能够实现电视节目播出自动化。

4、 电视节目播出系统方案比较

(1)系统设备设置

  根据中华人民共和国广播电影电视行业标准(GY/T165-2000)《电视中心播控系统数字播出通路技术指标和测量方法》第3、2节数字播出通路(digital transmit channel)规定,数字播出通路是指播控系统中的数字视频、音频信号通路,即从数字信号源(录像机等)、数字分配矩阵、应急切换器、数字切换台(处理器等),到数字信号分配放大器(含无压缩数字信号传输电缆)的通路。

  一般的播控系统是指各种源信号控制处理形成的电视节目播出信号的设备系统总成。为了实现数字电视节目信号的音视频协调一致,针对电视信号的数字化处理和传输的特点,数字音频信号需加延时器才得以实现。而采用音频嵌入方式的设备系统,在系统的设备构成中,就无需设置音频系统。

(2)设备系统简化

  采用音频嵌入方式的电视播出系统,相对于配有双伴音系统(视频系统,伴音①系统,伴音②系统)的电视播出系统,可以说省掉两套切换开关、处理和分配放大等设备,及相应连接电缆、连接器,故障机率相对减少;也就大大地提高电视播出的安全系数。

(3)节省设备投资 减少了两套音频设备系统和相应的延时器,将节省主要设备投资的2/3。

  采用配有音频嵌入功能的放像机,还要对个别的外来信号配备少量的音频嵌入设备,以及供监听监看的解嵌设备,又要增加部分投资。 对线缆和接插件有严格的要求,这是数字系统必要的。

从总投资来看,播控系统设备,有减少也有增加,可节省一半左右的造价。

(4)问题

  在电视设备模拟模式和数字模式并存的当今,就会有数字电视信号必须通过数模转换,才能在常规的监测系统中监听监看。在电视设备发展进步中,数模转换装置,可在监视设备中内藏,也可外设。

  采用音频嵌入的数字电视系统中的电视信号,必须通过解嵌设施,才能分别看到图象听到声音。

  总之,音频嵌入式电视播出系统,相对系统的音视频分离模式,是有着很多优点,方案是可取的。一般来说,音频嵌入模式适合于较大型系统中的各种切换,达到灵活轻便。切换中的音视频的协调统一,是靠程序控制中央处理器的统一指令完成的,而中央处理器的程序设计很容易实现,运作简单、实用、可靠,在天津电视台的三年多使用实践中予以证实。对于小型系统,音频嵌入也有一定的使用价值,当然要看设备系统的性能价格比和需要而确定。

二、 数字视音频信号

  电视系统数字化的过程,首先要了解数字视频和音频的标准规定,采用音频嵌入技术就必须了解数字视频信号的特征和结构。就此,分析有关数字视频信号的规范标准。 1、 分量数字视频信号

2、 复合数字视频信号

  数字技术初始实验阶段,都是基于对复合模拟信号(NTSC或PAL)进行取样,在实际操作中确认,为了取得最高的质量,还必须采用分量方式处理。于是产生的第一个数字标准,就是分量标准。直至宣告推出称之为D2格式的复合数字录像机系统后,复合数字格式又重新引起界内人士进一步研讨实验的兴趣。最初设计这种机器的目的,是作为模拟信号(NTSC或PAL)系统中的输入输出设备使用。采用数字式的输入输出设备进行机对机的多代复制,可收到很好的效果。因此,逐渐地出现了一系列的各种类型的制作设备。

  复合数字视频信号以4倍副载波频率进行取样。NTSC制标称取样频率14.3MHz,而PAL制为17.7MHz。与分量接口一样,复合数字信号的有效行中足以表示模拟信号的有效行和消隐信号。与分量接口不同的是,复合接口发送的数字信号表示行消隐期间的普通同步和色同步信号。在复合接口上还传递表示场同步和均衡脉冲的数字信息。

  复合数字设备具有数字处理和接口的各种优点,尤其是数字录像的多代复制性能。但也存在一些局限性,由于是对复合模拟信号直接取样,就保留了NTSC制和PAL制编码方式的烙印,其固有的缺陷,也是无法解决的。

(1) 并行复合数字信号

  与分量数字方式一样,并行复合接口使用多芯电缆和25芯“D”型连接器。实践证明,对于小型和中型规模的设备还能适应,但对大型设备而言,还是需要串行接口。NTSC制的复合数字并行接口标准是SMPTE 244M,EBU也有关于PAL制的接口标准。两种接口标准都规定为10比特的精度。

(2) 串行复合数字信号

  SMPTE 259M阐述的扰频NRZI串行接口,也可用来传送复合数字信号。从10比特并行接口来的数据,经过串接,按分量接口使用用同样算法经过扰频处理,变换为NRZI信号。最终的数据率为:NTSC是143Mb/s,PAL是177Mb/s。

  与分量信号相比,复合信号从并行到串行的变换稍微复杂一些。在并行分量接口中的SAV和EAV信号提供了独特的序列,能够在串行信号流中被识别出来,而并行复合接口并不具备这样的信号,因此,必须在串接前,在并行信号中插入适当的定时基准信号(TRS)于同步顶位置,用3个字表示TRS信号,以保证在串行接收机中实现成帧,然后在接收机中再去掉TRS信号。

  复合并行接口不具备发送附加数据的能力,由于发送同步和色同步信息占据了较多的数据空间,相对插入数据空间变小了。从并行转到串行的过程中,辅助数据可以插在同步顶位置。该数据空间足够发送4个通道的AES/EBU数字音频信号(两组立体声信号)。诸如音频信号之类的附加信号,可以预先在信号串接时加入,这个过程通常是利用插入TRS信号的同一个公用处理器实现的。

3、 数字音频

  在分析了数字视频信号的基础上,让我们再看一看被嵌入的音频信号的具体表征。

  1992年,美国音频工程师协会(AES)和欧洲广播联盟(EBU)共同制定了数字音频的接口标准,即AES/EBU数字音频格式。在这个基础上,国际电信联盟将其归纳为ITU-R BS647-2号建议书《广播演播室数字音频信号的接口》(A DIGITAL AUDIO INTERFACE FOR BROADCASTING STUDIOS)。

  AES/EBU音频被广泛地使用在演播室的各种数字音频设备间,数字域内的相互联接之中。就是我们谈及的嵌入音频,具体的音频格式,将在音频嵌入部分中详细表述。

  当讨论数字音频时,最重要的考虑问题之一,就是每个取样的二进制数的个数,当视频按每个取样为8位或10位二进制数时,音频设备的位数范围应该是16~20位,以提高所需要的动态范围和信杂比(SNR)。确定数字音频信杂比SNR的基本公式是:

SNR=(6.02×n)+1.76(dB)

式中“n”是每个取样二进制数的位数

  对于16位系统,最高理论SNR应为(6.02×16)+1.76=98.08dB,18位系统SNR为110.2dB,20位系统SNR为122.16dB。不难看出,一个设计优良的音频设备系统,若能取得100~110 dB的信杂比,按公式计算,SNR为110 dB时,该系统具有的等效分解力为18.3比特(位)。

三、 音频嵌入技术

  1、 辅助数据区

  视频、音频信号的数字化,就是对视频、音频信号的取样、量化和编码的过程。可以说,取样是实现时间轴的离散化,而量化则是幅度轴上离散化,那么编码是实现把离散化后的值,用二进制数码表示。进而变为一系列的电脉冲。

  我们清楚地知道,分量数字视频格式的有效行中,625/50制共有1728个取样字(525/60制为1716个取样字),其中对Y、Cb和Cr取样有1440个取样字(0~1439)。而对行消隐期间的取样可安排288个取样字(525/60制为276个取样字)。数据传送中,每行的消隐期间的数据是相同的,对于数字化来说就是所谓的“冗余”部分,在标准中用“SAV”和“EAV”,予以界定并作为接收端恢复的标志,就不再需要传送同步和色同步信息了。那么在“EAV”和“SAV”之间就可用来放置288个字(525/60制为276个),作为辅助数据(包括“EAV”和“SAV”的8个字)。因此,模拟视频中的行消隐期间,在数字视频中被称为行辅助数据区“HANC”(Horizontal Anicillary Data)。

  同样,模拟视频中的场消隐期间,在数字视频中被称为场或帧辅助数据区,由EBU定义为“VANC”(Vertical Anicillary Data)。   我国广播电影电视行业标准GY/T160-2000《数字分量演播室接口中的附属数据信号格式》,是等效采用ITU-RBT1364建议书标准,规定了数字分量演播室应用的嵌入到视频数据信号中的辅助数据格式。

  分量视频数据信号的辅助数据区,可用来传输数字音频等辅助数据信号。辅助数据信号以数据包的形式运载,每个包都带有自身的包头标识,在辅助数据区内,不可随意放置。依据标准规定,插入在数字视频的串行数据流中,可以同时发送多达16个通道,(8个AES/EBU数据流通道)20或24比特的声音信号。但必须紧接在EAV后面,不能有一个码字的空隙。误码检测信号EDH(SMPTE RP165定义)被放置在行辅助数据区的第5或315行(625/50制),但必须紧邻在“SAV”前面,同样不能有一个码字的空隙。行辅助数据区的剩余部分,可安排其它数据使用。

  顺便提及,对场辅助数据区(VANC),也有特殊的规定,以625/50制为例,第5行留给EDH码,第6行留给SMPTE RP168标准场切换,第10行留给放置DVITC(Digital Vertical Interval Time Code)码。

  对于分量数字视频格式的辅助数据包有具体的规范。 附属数据标志ADF表征数据包的开始。ADF由三个字的序列组成,其数值为:oo,ohFF,chFF,ch。因此,如果该空间中的前三个字不是ADF(oo,ohFF,chFF,ch),则可以认为不存在附属数据包,整个区域可以用于插入附属数据包,但不是改写定时基准信号。 数据标识DID(Data ID)规定附属数据包中用户数据字所运载数据的内容和性质。

  数据块序号DBN(Date Block Number),表明数据包号码,以区分带有共用数据标识的相继附属数据包(类型1)。接收机可根据包号码的连续性,来判别是否丢失数据。另一种(类型2)附属数据包没有数据块序号DBN,而将这一字节用来补充数据标识SDID,以增加数据标识范围。

数据计数DC(Data Count)表示附属数据包中用户数据字的数量。

  用户数据字UDW(User Data Words),用来传送由DID标识的最多255个字的信息。需要商讨的是625/50制要有比525/60制多12个字的空间。 数据包误码检验CS(Check Sum)用来确定自EAV至UDW的附属数据包的有效性。

  2、 音频嵌入

  目前辅助数据最大的用途是放置音频,然而被放置的音频称为嵌入音频。采用音频嵌入方案的电视系统,最大的好处是解决了电视信号在传输中的声画同步、协调的问题。由于嵌入音频后的视频信号可用一根电缆同时传送音视信号,还简化了设备系统。

  被嵌入的音频信号是以块(或称段)为单位,打包传送的。一个块由192个连续帧组成,每个帧包含有相关的两个子帧,每个子帧(32比特)表示一个音频通道,放置一个音频取样字,因此一个数字音频码流可以作为立体声、双声道模式使用。

  每个子帧定义为32比特,其中前置码占有4比特,音频数据为24比特,在数据位后的4比特,分别是有效标志位V(Validity),用户数据位U(User Data),通道状态位C(Channel Status Data)和子帧的奇偶校验位P(Parity)。帧的传输速率与源取样频率要严格对应。

  如果音频取样频率为48KHz,一帧的取样时间为20.83μs,每一子帧的取样时间就是10.415μs。帧传输速率与源取样频率要严格对应。

  在视频串行接口中可传输多达8个AES/EBU通道对(音频通道编号为1-16),分编到编号为1~4的音频组中。每个音频数据包传输1个音频组,每个音频组包含两个从各自的AES/EBU音频源中得到的数字音频通道对,即4个音频通道。即使在4个通道(CH1~CH4)中只有1个通道为有效通道时,也应该把4个通道的所有音频数据传输出去,此时要把所有无效通道的V、U、C和P比特置为零。

用户数据字(UDW)包括音频时钟相位数据(CLK)、两个AES/EBU音频通道对组成的音频组(4路音频通道)的音频数据(CHn)和纠错码(ECC)。

  音频数据是AES/EBU数字音频子帧的全部比特,透明地变换成4个顺序的UDW字。包括与1个音频样值的24比特AES/EBU音频流前置码中得到的Z标志比特。对于AES/EBU通道对的两个通道,Z比特值是相同的。

  按规范和使用经验,嵌入音频数据字是均匀地放置在各电视行中,这样最有利消除很敏感的伴音和画面口形的不一致,进而达到声画同步,协调一致。

  在GY/T161-2000《数字电视附属数据空间内数字音频和辅助数据的传输规范》明确规定,数字音频和辅助数据的映射,应符合GY/T158-2000《演播室数字音频信号接口》的规定,即应为AES/EBU音频,用于串行视频附属数据空间的控制信息,应符合GB/T17953-2000《4∶2∶2数字分量图象信号的接口》和GY/T159-2000《4∶4∶4数字分量视频信号接口》标准的规定,信号格式还应符合GY/T160-2000《数字分量演播室接口中的附属数据信号格式》的规定。

  在GY/T161-2000规范中还明确指出,48kHz取样且时钟锁定(同步)于视频信号的音频,是演播室应用的优选实施方法。也指出这个标准也支持取样频率为32~48kHz的同步或异步取样AES/EBU音频。

  在GY/T161-2000规范中在配置一节指出,将从一个或多个AES/EBU帧及一个或两个通道对中得到的音频数据配置到音频数据包中,如图11所示。通常情况,一个通道对的两个通道是从同一AES/EBU音频源中得到的。一个音频数据包中包含的每个通道的样值数目取决于在视频场内数据分配。比如,某些电视行的附属数据空间可以运载3个样值,而另一些电视行中可以运载4个样值,或者还有其他数目。就是说对现有的某些设备可能传输其他数目(包括零个)样值,接收设备应能够正确处理从零到附属数据空间的极限数目的样值。

  在GY/T161-2000规范中在应用级一节中规定,并不要求一种设备能够实现标准规定的全部功能,为指出一种设备对这些功能可以实现到何种程度,利用一个后缀字母来表示相应的应用级和支持的程度。

A:48KHz、20比特音频数据包上的同步音频,在电视行上样值要求均匀分配,以确保限定于A级运行的接收机的互操作。

B:48KHz的同步音频。与复合数字视频信号一起应用,样值分配允许有扩展数据包(要求接收机的运行带有大小为64个样值的缓存器),但实际无法使用这些数据包。

C:48KHz同步音频,含有音频数据包和扩展数据包。

D:异步音频(默认48KHz,采用其他频率时需指明)。

E:44.1KHz音频。

F:32KHz音频。

G:32~48KHz连续的取样频率范围。

H:音频帧序列,要求每帧都含有整数个样值,音频帧号从“1”开始,直到序列结束。

I:延时跟踪。

J:通道对中Z比特不一致的应用。

四、 展望

  纵观当今科学技术的发展,速度之快、变化之大都是前所未有的。高新技术的发展也同样地冲击着广播电视领域,我们广播电视工作者对其在引进、开发和应用方面,进行了积极的探索和实践,取得了扎实的成果,并在许多方面都获得成功应用的经验。高新技术的进步给广播电视带来了严峻的挑战和激烈的竞争,同时又提供了巨大的发展机遇。天津电视台率先建立了全数字音频嵌入电视节目播出中心,就是一个具体例证。我们相信在新的世纪里,电视高新技术必将更广泛、更迅速地发展和普及,其中数字化进程会进一步加快,全面贯彻于电视节目的制作、播出、传输和储存的各个环节,直至千家万户。高清晰度电视(HDTV)、数字地面广播等新技术也将全面进入实用阶段,计算机技术与电视技术的融合将更加密切,电视传输网络将向宽频带、双方向、可交互、多功能方向发展,电视媒体将由于这些高新技术发展的带动,而迅速成为我国信息产业建设的重要组成部分。在信息时代里,我们要以积极创新、科学求实的姿态,与全国广播电视工作者一道,把握机遇,迎接挑战,将我国的广播电视事业继续推向新的高度。

  根据科学进步的规律,嵌入音频的应用就更为重要。从电视节目的制作、播出、微波和光缆传输,卫星节目传送和数字电视广播等,都要有音频嵌入技术的结合,并已逐步地以行业标准的形式予以确认。例如我国参考ITU-R BT1365建议书制定了GY/T162-200《HDTV串行接口中作为附属数据信号的24比特数字音频格式》,就是确定音频嵌入技术应用的标准。因此采用音频嵌入技术势在必行,音频嵌入技术将成为电视发展,网络化普及的基础技术之一。

节选自《广播电视网络技术》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50