登陆注册
13955600000008

第8章 多媒体数据压缩编码技术(1)

音频、视频和图像处理能力是多媒体系统的重要技术指标。数字音频、视频和图像的表示需要大量的存储空间,同时这些信息要求计算机实时或准实时地进行处理。多媒体系统处理的对象及功能决定了多媒体计算机必须具有高速信号处理能力、大容量内存、足够的传输频带宽度等功能。为了解决存储、处理和传输多媒体数据的问题,除了提高计算机本身的性能及通信信道的带宽外,更重要的是对多媒体数据进行有效的压缩,以便以最小的时间和空间来传输和储存多媒体数据。

本章主要讨论多媒体数据压缩编码的基本概念,常用音频、图像信号压缩编码及解压方法,以及静态、动态图像信号的处理技术。

3.1数据压缩编码的基本概念

3.1.1数据压缩的可能性及意义

1.数据压缩的可能性

音频信号和视频图像的数字化数据可以进行数据压缩编码是基于以下两种事实。

1)信息的冗余度

无论是话音信息还是图像信息都有较大的冗余度。按采样定理,采样频率fs与信号的最高频率fm应满足fs≥2fm,为使离散信号能完全复现原连续信号,一般选择fs>2fm,即都是过采样,说明采样的离散数据具有冗余度。

对于连续过程而言,离散化时都以信号的上限频率为依据,但实际上信号并不是总是或经常处在上限频率(fm)上,也就是话音信号并不始终是那么活跃,信号的能量主要集中在低频部分。以fm为依据选择采样频率,只是从“无损”信息的角度出发,若允许在一定范围内“有损”(失真),那么使fs≥2fm自然就有了冗余度。说得极端一点,若信号在一段时间内不变,那么在这一段时间内只需一个采样点就可以了。

2)信号的相关性

相关就是联系,或两个信号之间的相似性。定义同一个信号前后时刻的相关性就是自相关函数ρxx(≤1);定义两个信号间的相似程度就是两个信号的互相关函数ρxy(ρxy≤1)。

2.数据压缩的意义

在信息无损或损失在一定允许范围内进行数据压缩,显然由于数据的减少,自然减小了数据的存储容量,同时,有利于数据的传输,降低了对数据传输通道的要求。由于数据量减少,因此,若数据速率(信道带宽)一定,则可以减少传输时间;若传输时间一定,则可以降低数据速率。数据速率降低,就可以增加数据(码元)的宽度,传输信号的频带降低,自然就降低了对信道带宽的要求。

3.1.2信息的量度

1.信息的含义

消息:是由符号、文字、数字或语音组成的表达一定含义的一个序列,如一份电报和报纸上的一段文字。消息是信息的载体,是表达信息的工具。

信息:是消息的内涵,是消息中的不确定性内容。

2.信息的量度

1)信息量及熵

(1)信息量的定义

设信源x由属于集合Am={a1,a2,…,am}的m个可能的符号产生,若信源事件aj的概率为P(aj),则定义事件aj的信息量I(aj)I(aj)=-logP(aj)

作为事件aj所包含的信息量的量度,称为自信息。

单位:取2为底的对数,则单位为比特(bit);取e为底的对数,则单位为奈特。

从信息量的定义可以看出,信息是事件aj的不确定因素的度量。事件发生的概率越大,事件的信息量越小;反之,一个发生的可能性很小的事件,携带的信息量就很大。

例如:在32个数码中任选1个数码时,设每个数码选中的概率是相等的,则

P(aj)=132

那么,任一数码的信息量为

I(aj)=-lb132=lb25=5bit

(2)信源的熵

一个通信系统并非只传送1个符号,而是多个符号,这就需要定义整个信源符号的平均信息量的大小。通常把自信息的统计平均值--数学期望。

H(x)=-mj=1P(aj)lbP(aj)(31)。

即信源x中每个符号的平均信息量,称为信源x的熵。

当信源x中的每个符号是等概率的且是独立的时候,平均信息量最大,此时。

P(aj)=1m,j=1,2,…,m

代入式(31)得

H(x)=Hmax=lbm

例如:若信号x{a1,a2}的概率分别为P(a1)=0.9,P(a2)=0.1,则符号的平均信息量,即信源x的熵为。

H(x)=-(0.9×lb0.9+0.1×lb0.1)=0.467bit

若a1,a2的概率P(a1)=P(a2)=0.5,则信源x的平均信息量达到最大,即。

H(x)=Hmax(x)=lb2=1bit

所以二进制1位数据(0/1)的每1位的信息量为1比特。

2)冗余度

先看一个例子,设一幅图片有4个灰度级S={A,B,C,D},这4个灰度级所出现的概率分别为P(aj)={0.6,0.2,0.06,0.14},则。

H(x)=-(0.6×lb0.6+0.2×lb0.2+0.06×lb0.06+0.14×lb0.14)=1.547bit。

即其平均信息熵为1.547bit。这说明表示这4个灰度级所使用的最少平均位数为1.547bit。

平均信息熵是一种理论上的最佳编码的平均码长。平常使用的一般为自然码编码,表示每一事件的位数是相同的。如果对A、B、C、D这4个灰度级采用自然码进行编码,即每一个灰度级用两位二进制表示,则4个灰度级的平均码长为2,而平均信息熵是理论上的最佳编码的平均码长,为1.547位。显然,自然码编码和理论上的最佳编码存在一定的差距,这一差距常用冗余度r来表示:

r=原始图像平均码长原始图像平均信息熵-1=21.547-1≈0.29

冗余度表示原始图像编码中所包含冗余信息的多少,应越小越好。在本例中,灰度级的自然码编码长度为2bit,平均信息熵是理论上的最佳编码码长,为1.547bit,显然,在自然码编码中包含有冗余信息。如何找出一种编码方法,使其平均码长尽量接近信息熵,是图像编码所追求的目标。

另外,如果4个灰度级是等概率出现的,均为0.25,则信源的平均信息熵为

H(x)=-4j=1P(aj)lbP(aj)=2bit

即在等概率的情况下,自然码编码的冗余度为0。

3.1.3数据冗余及其类型

冗余是指信息存在的各种性质的多余度。数据冗余,就是数据量(D)与其表达的信息量(I)不相等的现象。

设冗余量为du,它们的关系即可表示为

I=D-dudu≥0如果du=0,表示数据不存在冗余,不需也不能对数据进行压缩。需要并能够对数据进行有效压缩的条件是du0。

多媒体数据在数字化后存在各种形式的数据冗余,常见的有以下几种类型。

1.空间冗余

规则物体和规则背景的表面物理特性都具有相关性,数字化后表现为数字冗余。例如:一幅图片的画面中有一个规则物体,其表面颜色均匀,各部分的亮度、饱和度相近,把该图片作数字化处理时,生成位图后,很大数量的相邻像素的数据是完全一样或十分接近的,完全一样的数据当然可以压缩,而十分接近的数据也可以压缩,因为恢复后人也分辨不出它与原图有什么区别,这种压缩就是对空间冗余的压缩。

2.时间冗余

序列图像(如电视图像和运动图像)和语音数据的前后有着很强的相关性,经常包含着冗余。在播出该序列图像时,时间发生了推移,但若干幅画面的同一部位没有变化,变化的只是其中的某些地方,这就形成了时间冗余。

3.统计冗余

空间冗余和时间冗余是把图像信号看做概率信号时所反映出的统计特性,因此,这两种冗余也称为统计冗余。

4.信息熵冗余

信息熵冗余也叫“编码冗余”。所谓信息熵,是指一团数据所携带的信息量,信息熵冗余则在一团数据的内部产生。信息量是指从N个相等的可能事件中选出一个事件所需要的信息度量和含量,即在N个事件中辨识特定的一个事件的过程中需要提问“是或否”的次数。将信源所有可能事件的信息量进行平均,即为信息的“熵(entropy)”,熵是平均信息量。信息熵可表示为

E=-k-1i=0P(xi)lbP(xi)

式中,E为信息熵,k为数据组中数据的种类或码元数,P(xi)为码元xi发生的概率。

一组数据的数据量显然等于各记录码的二进制位(bit)数(编码长度)与该码元出现的概率的乘积之和,即

D=k-1i=0P(xi)b(xi)

式中,D为数据量,k和P(xi)同上,b(xi)为分配给码元xi的比特数。

若要求不存在数据冗余,即冗余量du=D=E,则需有

b(xi)=-lbP(xi)

由于实际中很难预估出{P(x0),…,P(xk-1)},因此,为使处理上简单,一般把所有码元记录成相同的二进制位数b(x0)=b(x1)=…=P(xk-1)。这样所得的D必然大于E,即du=D-E0。这种因码元编码长度的不经济而引起的数据冗余称为熵冗余,又叫编码冗余。

例如,从64个数中选出某一个数,可先问“是否大于32?”消除半数的可能,这样只要6次就可选出某数。这是因为每提问一次都会得到1比特的信息量。因此,在64个数中选定某一数所需的信息量是lb64=6(bit)。

5.结构冗余

数字化图像中物体表面纹理等结构往往存在着数据冗余,这种冗余叫结构冗余。若一幅图像中有很强的结构特性,如布纹和草席图像等,其纹理很规范清晰,于是它们在结构上存在着极大的相似性,也就存在着较强的结构冗余。

6.知识冗余

由图像的记录方式与人对图像的知识差异而产生的冗余称知识冗余。人对许多图像的理解与某些基础知识有很大的相关性。许多规律性的结构人可以由先验知识和背景知识得到。而计算机存储图像时还得把一个个像素信息存入,这就形成了冗余。

7.视觉冗余

人类的视觉系统对于图像场的注意是非均匀和非线性的,并不是对图像中的任何变化都能感知,而在实际图像中存在大量的人类的视觉系统不能察觉的细节变化的数据。事实上,人类的视觉系统的一般分辨能力为106灰度级,而一般图像的量化采用的是108灰度级。这种从人类视觉系统的分辨能力上看,图像数据中存在的数据冗余,叫做视觉冗余。

8.其他冗余

除了前面所述的几种数据冗余以外,由于图像空间的非定常特性而产生的冗余,以及其他种类的冗余,均属于其他冗余之列。

3.1.4数据压缩编码方法分类

数据压缩方法很多,从不同的观点出发可以有不同的划分方法。

1.无损压缩与有损压缩

根据解码后的数据与原始数据是否一致,压缩后是否损失信息,可以把数据压缩编码划分为无损压缩和有损压缩两类。

有损压缩使信息源的熵减少,也就是在数据压缩过程中损失掉一部分信息量。

无损压缩是一种可逆处理,即压缩过程没有损失信息源的熵,压缩仅仅去掉了一些冗余的信息。

2.按压缩原理进行分类

根据压缩原理进行分类,可以把数据压缩编码分为预测编码、变换编码和信息熵编码等几类。

1)预测编码

预测编码是针对统计冗余进行压缩的,常运用“时间序列分析”的概念解决动态系统的输出问题。其基本原理是:根据离散信号之间存在着一定关联性的特点,利用前面的一个或多个信号对下一个信号进行预测,然后对实际值和预测值的差进行编码,由于差值比实际值小得多,从而达到压缩数据量的目的。预测编码的典型压缩方法有PCM、DPCM、ADPCM等。

2)变换编码

变换编码也是针对统计冗余进行压缩的。所谓变换编码,是指先对信号进行某种函数变换,从一种信号空间变换到另一种信号空间(如将图像光强矩阵的时域信号变换到频域的系数空间上)进行处理的方法。若在空间上具有强相关的信号,映射在频域上就是某些特定区域内能量集中的部分,或者是系数矩阵的分布具有某些规律,从而利用这些规律分配频域上的量化比特率,达到数据压缩的目的。常用的变换编码的方法有KL变换和余弦变换(DCT)等。

3)信息熵编码

信息熵编码的目的是减少符号序列中的冗余度,提高符号的平均信息量。信息熵编码是根据符号序列的统计特性,寻找某种方法把符号序列变换为最短的码字序列,使各码元承载的平均信息量最大,同时又能保证无失真地恢复原来的符号序列,即要保存信息的熵值。信息熵编码最常用的方法有哈夫曼(Huffman)编码、游程编码和LZW编码等。

3.1.5数据压缩编码方法的选择

数据压缩方法有许多种,可以从不同的侧面来比较这些数据压缩方法的优劣,例如,实现的复杂程度、所付出的代价的高低,以及压缩系统的体积、重量及误差等,但最重要的指标是指在一定误差或质量下的压缩比。常用的有如下两种定义。

①采样压缩比φd:

φd=压缩前输入的总采样数压缩后输出的总采样数

由该定义可见,φd一定是大于1的数,当然越大越好。由于我们所研究的信号都要数字化,为存储和传送这些数字化信号,通常还要增加一些信息,以便顺利地解压。因此,下面的比特压缩比φb更为有用。

②比特压缩比φb:

φb=压缩前输入的总比特数压缩后输出的总比特数

根据上式及前面的解释,φb通常要比φd小,而且φb更能反映实际情况。因此,当提到压缩比而又没有作特别说明时,通常指的就是比特压缩比φb。

在数据压缩系统中,人们很关心的一个问题就是利用已压缩的数据重建原始数据所带来的误差,这是衡量某种压缩方法好坏的又一重要标志。在考虑重建误差时,总是局限于这种误差是由压缩方法产生的,而认为其他部分都是理想的。只有这样,才能更好地对不同压缩方法的误差进行比较。常用的方法有以下几种。

①均方根误差,如果原始信息源数据为集合,用压缩后数据经解压重建的原始数据为集合,则两者的均方误差和均方根误差分别表示为。

②峰值误差:原始数据与重建数据间差值的最大绝对值。用下式表示:

③汉明距离:汉明距离的定义为

以上是衡量数据压缩性能的方法。很显然,这是对有损压缩而言的。原则上说,无损压缩是没有误差的。

另外,还必须强调,在信号的采集、压缩、存储(或传输)以及信号的解压重建、恢复原始信号过程中,压缩和解压只是其中一个中间处理环节,因此,某种信号质量的衡量最终会与压缩方法的误差有关。

3.2常用音频信号压缩编码及解压方法

本节先介绍一些常用于音频信号的压缩方法。为了使读者对压缩方法有一个大致的认识,现将常见的音频数据压缩方法罗列于图31中。其中有一些是可以用于视频信号压缩的。

音频信号的编码,大致可以分为波形编码和参数编码两种方法。

①波形编码的基本思想是在满足采样定理的前提下,采样量化,并使编码以后的数据量尽可能小,译码以后的输出信号尽可能逼近原来的输入音频信号的波形,如PCM、DPCM、DM、ADPCM等。

②参数编码(分析合成编码)主要是针对话音信号,抽取话音信号的特征参数,然后进行编码,译码时激励相应振荡器通过喇叭发声。

同类推荐
  • 中国移动智能手机的秘密

    中国移动智能手机的秘密

    《中国移动智能手机的秘密》是一本关于移动终端和移动互联网的科普书。作者将这18年通信行业中的学习、思考、实践积累成《中国移动智能手机的秘密》与大家分享。书本系统总结了手机的发展历史、TD产业界“从2G向3G演进”的移动终端产业分化重组进程、智能手机的使用方法用方法和应用指南,以及对移动互联网发展独特思考。
  • Delphi程序设计教程

    Delphi程序设计教程

    本书为适应不同层次读者的需要,从Delphi的基本知识讲起,由浅入深,全面讲述了Delphi的集成开发环境、Delphi的编程语言——ObjectPascal、常用组件的使用、窗体的设计、菜单的设计、对话框的设计、多文档界面程序的设计、多媒体编程和数据库应用程序设计等内容。
  • 音视频合成制作

    音视频合成制作

    本书共分4篇6章,其中第1篇简介音视频合成的编导基础,第2篇主要介绍SonyCinescore1电影音乐自动合成,第3篇主要介绍Vegas7.0音视频剪辑合成,第4篇主要介绍AdobeAudition2.0、CakewalkSONAR6和SteinbergNuendo3的音视频合成。本书可以作为音乐、美术、动画、舞蹈、影视、戏剧等艺术院校视听艺术合成制作课程的教材,也可以作为相关人员的自学用书。
  • 数字博物馆研究与实践:2009

    数字博物馆研究与实践:2009

    本书汇集了“2009年北京数字博物馆研讨会”与会代表提交的60余篇论文和演讲报告、应用案例,分为数字博物馆(科技馆)发展研究探讨、数字博物馆(科技馆)多样性发展模式、数字技术在博物馆(科技馆)展陈中的应用、数字博物馆(科技馆)建设实践、数字博物馆(科技馆)实现技术和数字博物馆调研报告等六个部分。本书内容囊括了对数字博物馆(科技馆)建设宏观层面的全局思考以及微观层面的具体实践。在宏观层面,介绍了数字博物馆(科技馆)在国内外的发展现状与趋势,通过剖析典型案例,探讨数字博物馆(科技馆)建设的意义、目标、作用、建设原则、要素、特征及目前建设工作中存在的现实问题与对策。
  • 多媒体技术

    多媒体技术

    多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术多媒体技术
热门推荐
  • 蜜桃王妃

    蜜桃王妃

    在遇到顾北辰之前,白子佩逍遥自在,闲云野鹤,快意恩仇,凭借自己一手“活死人,医白骨”的医术纵横江湖,大名如雷贯耳。遇到顾北辰之后,白子佩被他拐骗到王府,莫名其妙地当上了王妃,在这之后,某王爷还不知廉耻地对她上下其手,于是,她怒了:“顾北辰,我跟你一没拜堂,二没成亲,三没父母之言,我算你哪门子王妃!”“不不不,是我下嫁于你,无需这些礼仪,只要爱妃不弃我于不顾便可。”“顾北辰,你不要脸!”“嗯……,和王妃比起来,还是王妃比较重要!”(一脸认真)白子佩彻底无语了,自从救了他之后,便死皮赖脸的跟着她,说什么,救命之恩无以为报,只有以身相许。求白子佩此时的心里阴影面积……
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 西游之影视大亨

    西游之影视大亨

    导演系大二学生商阳,带着一个只会拍电影的系统,来到了鬼怪神仙横行的西游世界孙悟空:“商老弟,上次说要签约俺老孙当艺人,还算数吗?” 狮驼岭三妖:“商老板,我们上次商量拍摄狮驼岭招妖宣传片的事情能再考虑一下吗?我们加钱!” 西王母:“你的新电影《神权的游戏》?放心吧,天庭这边会全力配合宣传。”我,商阳,西游世界里影视行业的垄断者,打钱!
  • 显英纪

    显英纪

    疯狂的科学家:“我知道我有罪,罪无可赦,罪大恶极。人类的不耻,摧毁武灵殿的恶魔。但……我有什么办法?我们人类啊,不过是他们的玩物而已。也许就跟我们用来做实验的老鼠没有多少差别吧?”“但……就算是生活在阴沟里的老鼠,也有抬头的权利啊!我们看不到星星,头顶一片黑不溜秋什么屁都没有!那是一层层雾啊,让人窒息的未知。像魔鬼一样让人绝望,又在不断诱惑的未知。”“所以我要铸造一座高塔!用血肉堆砌的高塔!我要让同族的鲜血让那些对头顶绝望,对生活麻木的人们再次抬头!恐惧也好,愤怒也罢。这是一座灯塔!我要让所有人看着!所有人知道!我们头顶的黑幕并非无懈可击!也许很多年……”等台词说完已经等出火的主角:“停停停!您的雄心壮志,我已经了解了。介绍太长了,咱们这又不是正文!”科学家:“哈?你在说什么玩意儿?我堂堂……”噗!
  • 泪之恋

    泪之恋

    传说,在眼角下方如有一枚褐色浅痣,那就是泪痣.而你的眼睛注定今生多泪,时而滂沱的泪,时而无意象露珠.这枚泪痔,为你生命中的爱而生长,它会发芽,成长,最后枯竭.哭的是你今世的爱,痛的是来生的情.如来世不能继续这爱情,那么泪痔会世世陪伴,和你一起等待,直到有天他会发现你的痛.泪痣,三生石上刻下的印记,连转世都抹不掉的痕迹。传说有着泪痣的人,是因为前生死的时候,爱人抱着他哭泣时,泪水滴落在脸上从而形成的印记,以作三生之后重逢之用。一旦有泪痣的人,遇上了命中注定的那个人,他们就会一辈子分不开。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 黄昏下吃瓜

    黄昏下吃瓜

    随性神级玩家,在现实只是吃瓜,异界在线锤人
  • 逆天氏

    逆天氏

    星晨大陆是一个充满灵气的地方,在这片大陆上,叶辰原名东方辰,因被灭族,从小受尽嘲讽,但最后却成为保护星晨的英雄......
  • 行进苍穹

    行进苍穹

    人类起源于猿猴,这也许是一个充满正能量的故事,世界进步靠进化,这或许是一个荒诞的谎言,人类来自何方,将往何处……
  • 大修真世界

    大修真世界

    简单版:一个小小的灵元星走出一位轰动玄黄大世界的修士他破荒古迷雾,走无尽仙路他败尽天下修士,无敌天下他叫林辰,一个将要成为修真界最为恐怖的纯在直白版:一个将要征服世界统治修真界成为人上之人的美女推土机注定成为世界公敌的存在。