CDN网络中的内容分发策略研究
发布时间:2006-10-14 3:56:34   收集提供:gaoqian
王樟 柳健 杨瑞娟

华中科技大学 电子与信息工程系


  摘要 CDN是在现有网络基础设施之上新建一个重叠网,构筑一个地理位置分布的内容分发网络,对信息流进行优化,从而提高网络的使用效率。它能将信息资源推向网络边缘,使得网络用户可以从“最近最好”的服务器上快速访问到所需的内容,从而大大提高终端用户的访问速度。本文简要讲述了在CDN网络中内容分发的原理,从基于内容访问度和负载均衡的角度出发,研究将信息资源推向网络边缘的内容分发策略问题,并提出了两种主要的分发策略思想及算法。

  关键词 CDN 内容管理模块 边缘缓存 访问度

1 引言

  随着Internet的快速成长,网络内容和网络用户急剧增加,尤其是数据量很大的流媒体内容及动态内容的增加,导致网络负载不断加重。CDN是在现有网络基础设施之上新建一重叠网,构筑一个地理位置分布的内容分发网络,对信息流进行优化。它利用缓存、复制、负载均衡和客户请求重定向等,将信息资源推向网络边缘,使得用户可以从“最近最好”的服务器上快速访问到所需的内容,从而大大提高终端用户的访问速度,减轻网络负载。在将这些信息资源推向网络边缘时,应当依据一定的策略来决定哪些内容应该分发,以及应该将这些内容分发到哪些边缘缓存服务器上。由于网络内容都是最终提供给终端用户访问的,内容的好坏和受欢迎程度的高低都直接由用户访问度来决定,所以最主要的策略就是从基于内容访问度和负载均衡的角度出发,对于每一个边缘缓存服务器上的内容,根据其访问度的大小,与预订的门限值进行比较,如果访问度VD满足一定的条件就将内容分发到离用户“最近最好”的服务器上。

2 CDN网络内容分发原理

  在CDN网络中,边缘缓存服务器Edge Cache是核心组件。它将用户请求的内容保存在离用户近的地方,从而缩短了访问延时,同时减轻网络的负载流量。Edge Cache还具有自动更新和预取内容的功能,它知道哪些内容是更新的或过时的,哪些内容是最受欢迎的,并采取适当的措施更新内容。它还可以根据用户的访问习惯等信息预测用户将要访问的内容,所以它必须记录下它所包含的所有内容的用户访问信息。而内容管理服务器Content Manager是CDN网络中的内容管理组件,主要是管理和分配Edge Cache上的内容,它要监控所有边缘缓存服务器Edge Cache上的内容访问情况,并定时运行内容分发策略,把满足分发条件的Edge Cache上的内容分发到离用户最近最好的地方。

  网络用户User可以访问边缘缓存服务器Edge Cache1,Edge Cache2…Edge CacheN上的内容,经过一定长的时间段T后,Content Manager上的内容分发策略开始运行。它首先读取Edge Cache1上内容C1的访问信息,当内容C1的访问度VD 较大时,表明C1的受欢迎程度较高,同时C1所在的Edge Cache1的负载量也较重,此时Content Manager就把Edge Cache1上内容C1的一份拷贝分发到离访问用户最近最好的边缘缓存服务器Edge Cache2上。相反的,当内容C1的访问度VD 较小时,表明C1的受欢迎程度较低,此时不宜进行分发,以免增加额外的网络传输负担。依此类推,内容分发策略要读取每一个Edge Cache上的每一个内容的访问信息,并由策略条件判断是否进行分发。所以实际上,策略运行起来,是要将网络中所有边缘缓存服务器的所有内容的访问信息遍历一次。

3 分发策略研究

  设在CDN网络中,有N个边缘缓存服务器,分别为Edge Cache1,Edge Cache2…Edge CacheN,每个边缘缓存服务器上有N(i),i=1,……,N 个内容,且均不相同。那么对于每一个Edge Cache上的每一个内容C,在时间间隔T内只有当其访问度VD 满足一定的门限条件时才进行分发。而访问度VD 的定义不同,可对应于不同的策略。以下详细讨论了两种主要的策略,并给出了实现算法的复杂度:

3.1 基于内容绝对访问量V 的策略一:VD = V

  V的定义是,访问该内容的用户数。如果对于Edge Cache1上的内容C1 ,在当前的时间间隔T中有V1 个用户访问它(假设不计用户重复访问次数),那么内容C1 的绝对访问量V = V1,此时C1的访问度VD为

   VD = V = V1

  设定绝对访问量门限值为M,M的定义为判断是否分发内容的绝对访问量临界值。当绝对访问量V 大于此临界值时,表明内容C1 受欢迎程度高,有必要将其分发到离访问用户“最近最好”的服务器上,反之则不然。所以只有当V > M的时候,才对C1 进行分发;当V <= M时,则不对C1 进行分发。

  从本算法的复杂度来看,由于对于内容C1只需要进行一次计算,即比较访问度与门限值的大小,而策略运行时是要将所有Edge Cache上的所有内容都遍历一次,故此算法的复杂度即是内容的总数ΣN(i),i=1……N。本算法的流程图如下图3所示。 选取合适的门限值M成为影响本策略运行效率的关键。由于此时M反映的是绝对访问量临界值,而且设定的启动策略时间间隔T不同,会得到不同的绝对访问量,故M的选取与时间间隔T的大小有关。T越大,则在T时间内对内容的绝对访问量V也越大,门限值M也要设的大一些;T越小,M也对应小一些。但应注意的是,如果M设的过大,会使一些用户喜爱的内容得不到分发;M设的过小,会导致分发的内容激增而增加网络负担。所以在实践中应根据网络的状态和用户的访问情况动态调整门限值,一般将M设为内容绝对访问量的平均值比较合适,这样使得大约50%的内容得到分发。

3.2 基于内容相对访问量ΔV的策略二:

VD= ΔV

ΔV的定义是,相邻两次绝对访问量之差即内容访问增量。如果对Edge Cache1上的内容C1,在当前的时间间隔T中有V1个用户访问它(假设不计用户重复访问次数),而在前一个相同的时间间隔T中有V0个用户访问它,那么该内容访问增量ΔV=V1-V0,此时内容C1的访问度VD为

   VD=ΔV=V1-V0

设定相对访问门限值为ΔM,ΔM的定义是判断是否分发内容的相对访问量临界值。当访问增量ΔV大于零时,表明内容C1受欢迎程度有所提高,而当ΔV大于ΔM时,进一步表明内容C1提高的程度很大,故可以提前将其分发到离访问用户“最近最好”的服务器上。本策略要求Edge Cache不仅记录下当前时间间隔T内的绝对访问量V1,还要保留前一时间间隔T内所记录的绝对访问量V0,这样才能够计算出ΔV的值,ΔV=V1-V0。所以当ΔV>ΔM的时候,才对C1进行分发;ΔV<= ΔM时,则不对C1进行分发。

从本算法的复杂性来看,由于内容C1需要进行二次计算,即首先求得ΔV,然后比较访问度与门限值的大小,所以与策略一相比,每一步都要多进行一次运算,故其算法的复杂度应为策略一的2倍,即ΣN(i)x2,i=1……,N。

本策略在设定门限值ΔM的大小时,其基本原理和方法与前述的策略一大致上相同,但从根本上有所不同的是,ΔM反映的是相对访问量临界值,而且与绝对访问量门限M相比,ΔM要远远小于M。因为M是绝对数值,而ΔM是在相同的时间间隔T内的相对变化数值。所以在实践中,当CDN网络在相邻的时间间隔T内用户对内容的访问率变化范围很小时,采用策略一较为合理;反之,当用户访问率变化范围较大时,采用本策略更合理。

3.3 仿真实验结果

在CDN网络仿真软件SIMULATE程序中,首先设置网络仿真环境如下,边缘缓存服务器Edge Cache的个数N=10,每个Edge Cache上的内容个数N(1)=N(2)=…=N(10)=5,策略运行时间间隔T=10分钟,用户访问率变化范围设为0,在此仿真环境下分别对上述两种分发策略做了测试实验,研究结果表明,最佳的门限值分别为M=49,ΔM=5。然后调整时间间隔T=20分钟,并在新的仿真环境下重新做测试实验,此时最佳的门限值分别为M=106,ΔM=5。最后保持T=20分钟不变,用户访问率变化范围设为50%,即使得在相邻的时间间隔T内用户对内容的访问率变化很大,此时最佳门限值分别为M=105,ΔM=9。

  4 结束语

  本文对CDN网络中的内容分发策略进行了初步的研究,并提出了两种主要的基于内容访问度的分发策略思想。策略一是基于内容绝对访问量的大小,它直接体现了内容的受欢迎程度;策略二则是基于内容的相对访问量的大小,它反映了内容受欢迎程度的变化程度和趋势。由于网络内容最终是提供给终端用户访问的,内容的好坏以及受欢迎程度的高低主要取决于内容访问度的大小。所以在研究决定是否进行内容分发的策略中,基于内容访问度的思想无疑是最合理的也是最贴近实际用户需求的。通过进行仿真测试实验,结果表明当CDN网络在相邻的时间间隔T内用户对内容的访问率变化范围很小时,应采用策略一较为合理;反之,当用户访问率变化范围较大时,应采用策略二更合理。

参 考 文 献

[1] Zewski P, Tomlinson G. Content Distribution and Internetworking. 2000

[2] Krishnamurthy B, Wills C, ZHANG Yin. On the Use and Performance of Content Distribution Networks. 2001

[3] 邱翔鸥. 为因特网加速的内容陪送网络. Global Report 2002,(3) 16-20

[4] 高勇,李子木. CERNET上CDN性能的研究.计算机工程, 2002,(8) 211-215

[5] 谢希仁.计算机网络.大连.大连理工大学出版社, 2000

  王 樟,男, 湖北沙市人, 华中科技大学电信系2001级硕士研究生,研究方向:计算机网络传输和流媒体。

  柳 健,男,华中科技大学电信系博士生导师, 研究方向:计算机网络和多媒体图像技术。

   杨瑞娟, 女,华中科技大学电信系博士研究生,研究方向:计算机网络和流媒体。


----《中国数据通信》
 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50