郭京 浙江省钱塘江管理局
摘要:过去几年里Internet的快速增长使人们对Internet承载电话业务越来越感兴趣。由于Internet支持数据通信,其它形式的业务也可以捆绑在Internet电话上。虽然如此,Internet最初设计为非实时数据通信,因此要想成功的承载电话业务,Internet必须解决一些关键的技术问题。本文描述几种未来Internet电话可能承载的业务,需要的关键技术以及解决方案。
一、引言
电路交换和分组交换是计算机和电信网络的两种主要技术。目前的电话系统基于电路交换,可以为用户提供有保障的业务质量(QoS)。两个端点在通信前必须建立一条电路。相反,数据通信到目前为止是非实时的,因此可以在基于TCP/IP协议的分组交换网络(如Internet)传输。
过去几年里Internet的快速增长使得在Internet上传输实时话音业务成为可能。由于Internet最初不是为实时通信设计的,Internet承载电话业务带来一系列需要解决的技术问题。这些问题主要包括:缺乏带宽的保障,分组丢失,延迟,以及影响话音质量的抖动。
虽然如此,Internet电话带来一些以前传统电话网络无法承载的业务。它允许包括话音、传真和数据在内的综合业务在同一网络传输。基于Web呼叫中心,实时计费,在家上班,以及使用共享白板和共享应用的增强电话会议之类的业务可能使用IP电话。
二、业务和应用
传统的公共电话交换网络(PSTN)与IP电话的主要区别是IP电话是一种建立在现有数据通信之上的话音业务,因此IP电话超出简单的话音通信业务。数据业务很容易与话音业务混合,创造出传统电话不可能传输的新的应用和业务。下面描述几种这种新技术产生的应用,但是这些新的应用不可能构成整个IP电话市场。几乎每个月都有新的应用产生,任何一个应用都有可能成为下一个千年的主流。
2.1 数据、话音以及传真的综合
由于数据通信网络可以支持IP电话,多点分散的单位实体可以将它们现有的电话网络与数据网络合并,大量节省开支。节省开支主要来自单位只需要维护一个支持话音、数据和传真的网络。IP电话也支持图像通信,而且将图像网络合并到同一网络也是可能的。
2.2 话音等级
PSTN只支持一种话音等级,4kHz质量话音,因此PSTN不适合高保真立体声和环绕声。如果IP网络有足够的带宽,IP电话可以支持更高级别的话音。
2.3 视频电话
由于IP电话也支持图像传输,因此在IP电话上传输视频图像简单易行。
2.4 统一消息
大多数员工与他们的客户或同事通过各种通信方式在业务上保持一定联系。多数人有对方的电子邮件地址、手机号码、电话号码以及传真号码,并且家庭与工作单位的联系方式可能不同。这样就造成很难在一个时间一个地点与对方取得联系。
传统电话公司提供的消息业务限制只能提供话音邮件,不能接入传真和电子邮件。使用类似IP网络的分组交换网络,使统一消息系统成为现实。用户可以在方便的时候在一个地点得到所有类型的消息。来自家或工作单位的话音邮件可以象电子邮件一样发送到同一地点。这种业务特征甚至可以扩展为使用单电话号码完成所有电信业务。
2.5 虚拟第二电话线
许多家庭Internet用户都有两根电话线,一根用于正常的电话,另一根用来Internet冲浪。有了IP电话,家庭用户甚至可以用同一根电话线在Internet冲浪的同时进行电话呼叫。因此IP电话在没有额外开销的情况下提供了虚拟第二电话线。
2.6 基于Web的呼叫中心
基于Web的呼叫中心允许用户浏览Internet,从一个Web站点的组织到它的呼叫中心发起一个IP话音(VoIP)呼叫。Internet冲浪者不需要停止浏览,相反,Internet呼叫仅仅是他/她的行为的一个扩展。这种业务的好处是双倍的,首先,它有助于在峰值的时候捕获到一个潜在的客户行为。许多人随着时间的流逝会对手头的工作失去兴趣。对于潜在的客户是一样的,他们可能喜欢一个在Web站点作广告的产品,但是由于想立即浏览且通过电话定购很不方便而中止其行为。第二个好处是Web冲浪者需要进一步的信息,甚至可能在同一个站点得到。有了基于Web的呼叫中心,冲浪者可以与呼叫中心人员联系,直接得到进一步的信息。
2.7 低价格话音呼叫
与PSTN用电路交换技术不同,IP电话采用分组交换技术。分组交换没有通信链路专门用于话音呼叫,所有的呼叫共享网络资源,这种共享大大降低了一个电话呼叫的费用。
2.8 实时计费
尽管PSTN的核心网使用智能设备已经十几年了,这种功能对用户还保持着空白,尤其是有关计费信息,因此用户必须等到邮件寄来计费清单才知道准确的话费,这主要是因为传统电话功能有限。使用VoIP,终端用户使用计算机增加了,允许用户实时接入网关得到计费信息。VoIP和Internet都基于IP,因此一些业务提供商允许他们的客户从提供商的Web站点得到计费信息,这样就保证那些从传统电话发起呼叫的用户知道他们付费的情况。
2.9 在家工作
使用VoIP还可以增强在家工作者可得到的资源。在家工作者象公司其它员工一样,需要接入公司的专用交换机接受和发起呼叫,也可能不时地要求接入公司的局域网(LAN),这些业务对于在家用户可以通过公司的VoIP网关实现。
2.10 增强电话会议
在IP电话出现之前,电话会议已经发展得很好。虽然如此,IP电话对电话会议的方式进行了改革。传统的电话会议为了理想的图像质量要求准备专用的房间和昂贵的设备,基于IP的电话会议更加灵活,允许用户在两个以上地点用适当的设备,如桌面相机和多媒体计算机,举行会议。图像编码技术的改进帮助提高了动态图片的质量。基于IP网络的电话会议还可以带来传统电话会议没有的其他业务,用户可以通过电子白板共享文本,可以共享一个与会者计算机上的应用,在所有参会者之间实时传送文件。
三、关键技术
IP电话面对许多技术困难,如丢失、延迟和抖动,下面具体讨论IP电话的各种技术困难以及解决方案。
3.1 分组丢失
分组丢失是所有分组交换网络的普遍现象,包括IP网络。与电路交换网络PSTN不同,在IP网络中没有端到端的物理链路建立,来自多个源的IP分组在路由器的出发链路上排队发送,分组从队首一个接一个发送。如果队列没有空间,刚到达的分组就会丢失。由于越来越多的人使用Internet,路由器经常变得拥挤,产生分组丢失。
分组丢失可以引起IP话音质量几个方面的损失。每个IP分组包括40~80ms的话音信息,与称为音素的关键单元持续时间保持一致。当一个分组丢失后,连续话音就丢失一个音素。而人脑只能重构几个丢失的话音音素,过多的分组丢失造成话音不能理解。图1表明话音质量随着丢失率的增加而下降[1]。
下面讨论几种解决IP电话分组丢失的技术,其中一些技术侧重于减少分组丢失,另一些侧重于修复由于分组丢失引起的损失。
网络升级--由于IP路由器中分组丢失的直接原因是链路带宽和路由器分组处理速度不够,升级IP网络结构、链路和路由器是分组丢失问题的直接解决方案。过去几年提出一些提高IP骨干链路和路由器的传输能力的方案。高速传输技术包括线速每秒Mbit的异步转移模式(ATM),每秒Gbit的同步光网络(SONET),以及每秒Tbit的波分复用(WDM)。通过链路带宽的增长以及使用高速交换路由技术,每秒可以处理数以百万计的分组。
尽管网络升级为分组丢失提供一个网络工程解决方案,但是这是一种昂贵的长期的投资。网络升级试图减少分组丢失,而其它技术致力于修补分组丢失对话音质量造成的破坏。
静默代替--当分组到达目的地后,分组的内容用来重构原始的话音。当一个分组在网络中丢失时,这个分组的内容不能重现。一些VoIP系统,如Internet Mbone,用静默代替丢失的分组,允许目的地不间断地恢复话音,实践表明静默代替产生话音断续,严重破坏了话音质量,对于大分组和高丢失率尤其严重。对静默代替的研究表明,要想达到满意的性能,丢失率为1%时分组必须小于16ms[2]。
噪声代替--用白(背景)噪声代替丢失的分组比用静默代替表现出更好的性能,这是由于人脑在某些背景噪声(如音素恢复)可以恢复接收信息,而在静默是不可能的[2][3]。
分组重复--从丢失分组恢复话音的另一种方法是,在丢失分组的位置重播前一个正确接收的分组,全球移动通信系统(GSM)采用重复信号保证更好的质量。
分组内插--分组内插用丢失分组的临近分组的特征生成一个替代分组,这样可以保证替代分组跟随整个话音流的变化特征。研究表明根据声音的波形特征在丢失分组前后采用内插恢复可以得到比静默代替和分组重复更好的话音质量[4]。有几种不同的内插方法,一种侧重话音信号的音调,另一种侧重时标。
帧交织--在不同的分组之间进行话音帧的交织可以减小分组丢失的影响,其过程是重新排列原始帧,保证连续的帧间隔发射,接收端恢复原始帧的排列顺序。使用交织,单个分组的丢失只能在接收数据的不同的流产生短暂的间隔,相对于没有交织数据可能产生的连续帧的长间隔,这种短暂的间隔对于接收机是能够容忍的。帧交织的弊端是增加了时延。扩展到几个分组中的连续帧只能在接收端重新排列。虽然如此,如果分组交织产生的时延在时延容许范围之内,它就是一种很有吸引力的丢失恢复技术,因为它不会引入网络开销。
前向纠错(FEC)--在FEC中,连续分组的信息使用冗余发射。如果原始分组丢失,可以由后续分组重构。冗余也可以独立于数据流,或者用流特征强化恢复过程。由于实时传输协议(RTP)是支持Internet上的IP电话的协议,RTP就含有承载冗余话音分组的机制。RTP承载冗余话音分组的装填格式在文献[5]中具体讨论。
3.2 分组延迟
时间是话音的一个重要特征,一个词的两个音节以一定间隔发出,这种间隔与音节一样是话音的一部分。如果音节之间插入增加的延迟,话音的节奏就丢失了。太多的延迟可以从几方面破坏话音。首先,长延迟使讲话双方进入半双工模式,一个人说,另一个人听,然后中断,再决定下一步干什么。如果不在恰当时间中断,讲话双方就可能中断正在进行的讲话。第二,长延迟加剧了回声,因为反射信号在发送完成后返回到发送方。
随之而来的问题是,对于话音要求什么样的延迟门限值?基本的限制为延迟低于150ms对于多数应用可以接受。当延迟超过150ms时,用户开始进入回声产生相互之间的话音混叠。虽然如此,延迟在150ms与400ms之间,对于长距离通信还是可以接受的,例如澳大利亚的Melbourne和美国的New York之间。延迟超过400ms的话音质量被严重破坏,多数情况不可接受。
延迟对于目前的电路交换电话网络不是一个大问题,如综合业务数字网(ISDN)和PSTN。这些网络延迟的主要来源是信号传播延迟,直接由距离决定,因为信号几乎以光速传播,即使长距离的卫星链路延迟也可以保持在400ms以下。
不幸的是,IP电话面对的最大技术挑战之一就是延迟。在类似IP网络的分组交换网络,许多因素可以产生延迟,最主要的是下面讨论的排队延迟。一些延迟是预先已知的固定的,另一些是变化的不确定的。
编解码延迟--编解码的主要功能是将模拟信号转换成数字数据。编解码还执行话音压缩以减少数字网络传输话音所需的带宽。模数转换和话音压缩在编解码器中引入延迟。压缩越严重延迟越长,编码延迟的两个因素是帧处理延迟和先行延迟。帧处理延迟是处理单个话音帧的延迟,话音的内容被封装在分组中。先行延迟是为了利用连续话音帧的相关性处理部分下一帧引起的延迟。接收方的解码延迟一般为发送方编码延迟的一半[6]。表1列出最近被国际电联(ITU)制订为标准的几种话音编码标准的编码和解码延迟(主要面对IP电话)。
串并转换延迟--串并转换延迟是将分组放在传输线上用的时间,由线速决定,线速越高,延迟越小。例如,在64kb/s的线上放一字节信息需要125ms,而在155Mb/s的OC-3线上放同样的信息只需0.05ms。串并转换延迟还取决于编解码器采用的帧的大小,帧越长产生的分组延迟越大。
排队延迟--排队延迟发生在网络的个个交换和传输点,如路由器和网关,话音分组必须等候在其它分组之后在发射链路等待发射。由于队列中等待发射的分组数取决于到达过程的统计特征,Internet中的排队延迟分组与分组之间变化很大。可以通过各种方法减小排队延迟,更快的链路只能用在用户具有结构控制能力的网络,如集合IP网络。IETF正在致力于这方面的工作,如异种业务(DiffServ)[7]和资源保留协议(RESV)[8],使话音分组优先于数据分组,减小话音和其它延迟敏感应用的排队延迟。
传播延迟--信号从一点传输到另一点需要的时间是固定的,由光速决定,对于长距离在这种延迟很大。通过卫星链路的呼叫显然有较长的固定延迟,尤其是同步地球轨道(GEO)卫星。长距离卫星呼叫的传播延迟也是传统电话的一个问题。减少涉及GEO卫星的长距离延迟的一种方法是用一组低地球轨道(LEO)卫星。在LEO卫星中,当地面站超出一个卫星覆盖区到达另一个卫星覆盖区时,来自地面的连接可以从这颗卫星切换到另一颗卫星,这样会产生变化的延迟路径,因为LEO卫星根据地面站移动,并且连接切换过程中节点需要存储数据。
其它延迟--一些延迟是VoIP系统特有的。在拨号网络,存在调制解调器引起的延迟,这种延迟可以通过数字线避免。用多媒体PC的分组话音系统由于操作系统和声卡的延迟也会带来延迟,这些问题可以用网关卡解决,网关卡使用快速特殊的数字信号处理器(DSP)。
3.3 网络抖动
接收端帧间到达时间的方差称为抖动,很可能比延迟对IP电话的损害更大。发生抖动是由于网络中排队延迟和传播延迟的变化。属于同一流的IP分组可能经历不同的路径不同的延迟,如果一个IP分组非正常延迟,不能及时到达接收端而被认为丢失。如果这种情况经常发生,会严重影响话音质量。
为允许分组到达时间可变且得到稳定的分组流,接收端释放第一个分组前在抖动缓冲器中保留一会儿,保留时间根据缓冲器的大小而定,如50ms的时间意味着抖动缓冲器的长度为50ms。抖动缓冲器保持时间加到整体延迟当中,因此对于大的抖动,即使平均延迟小,整体延迟也会很高,如对于平均延迟50ms 及5ms的抖动缓冲器,整体延迟只有55 ms。相反,如果网络平均延迟只有15ms,而偶然的分组延迟达到100ms,延迟缓冲器为100ms,整体延迟为115ms!
选择抖动缓冲器的大小对IP电话网络很关键,最佳的缓冲器大小可以通过平衡消除抖动和容许时延限制得到。如果缓冲器设置太低,一些分组将会丢失;如果设置太高,延迟将会增加。抖动缓冲器的大小可以由迟到分组与急时到达分组的比率确定,理想情况,抖动缓冲器的大小应该动态改变,适应网络条件的变化。一般缓冲器大小的范围从50到100ms,Cisco、Hypercom以及Netrix都提供了智能缓冲器,可以按照网络变化自动调节。
3.4 IP和PSTN的结合
终端用户有几种不同的结构,第一种是PC-PC结构,用户使用多媒体计算机直接连接到Internet,如通过网络接口卡连接到LAN,通过调制解调器连接到Internet业务提供者。所有的采样、压缩、编码以及解码都在计算机中进行,如果不采用硬件卡完成这些功能,会给CPU造成很大负担。用户之间的呼叫用IP地址建立,这种结构IP和PSTN是独立运行的。PC电话是IP电话结构的一种替代,允许PC用户与传统PSTN电话用户建立呼叫,这种结构导致了IP网络与PSTN的结合。一种扩展的PC电话结构是电话--Internet--电话,使用Internet以降低传统电话用户的费用。在电话--Internet--电话结构中,可以使用传统的电话机,一个用户试图呼叫另一个用户,可以拨打一个PSTN和Internet之间的特殊网关号码,然后再拨所需的电话号码,所有采样和编码发生在网关。话音分组通过Internet到达离被叫用户最近的网关,第二个网关完成解码并转换成模拟信号,再经过PSTN到达被叫用户。
四、结论
本文描述了可能用于Internet电话的新的业务,然后讨论了几个涉及Internet电话质量的技术问题,并且给出了这些技术问题的解决方案。虽然如此,这些方案实现起来非常困难,因为Internet已经遍布全球。我们需要新的协议和技术提高目前Internet终端用户的QoS,IETF正在致力于提高Internet QoS以及开发新的协议支持IP电话。
参考文献
[1]A.Watson & M.A.Sasse, 揗ultimedia conferencing via multicast :determing the quality of service required by the end user,Proc. Int. Wksp.Audio-Visual Svcs. Over Packet Networks, Aberdeen, Scotland, Sept. 1997.
[2]V.Hardman et al, eliable audio for use over the Internet, Proc. INET5, Hawaii, 1995.
[3]C.Perkins, O.Hodson & V.Hardman, survey of packet-loss recovery for streaming audio, IEEE Network, Sept./Oct., 1998, vol.12, no.5, pp40-48.
[4]D.Goodman, O.Lockart & W.Wong, aveform substitution techniques for recovering missing speech segments in packet voice communications,IEEE Trans. Acoustics, Speech and Sig. Processing, Dec. 1986, vol.ASSP-34, no.6, pp1440-48.
[5]C.Perkins et al, TP payload for redundant audio data,IETF RFC 2198, Sept. 1997.
[6]J.Kostas et al, eal-time voice over packet switched networks,?IEEE Network, Jan./Feb. 1998, vol.12, no.1, pp18-27.
[7]S.Blake et al, 揂n architecture for differentiated services,?IETF RFC 2475, Dec. 1998.R.Braden et al, 揜eservation protocol (RSVP)ersion 1 functional specification,?IETF RFC 2205, Sept. 1997.
|