- 中华医学影像技术学·数字X线成像技术卷
- 余建明
- 9字
- 2020-08-29 05:34:30
第五章 数字图像基础
第一节 数字图像理论
数字图像(digital image)是传统的X线技术与现代计算机技术结合的产物。X线影像是X线穿过三维物体后,在二维平面上的一个投影。图像本身是二维的,它包含着X线投射方向的密度信息。若把二维平面定义成X、Y平面,则密度信息可以用X和Y的函数表示
一、图像信号
图像是当光辐射能量照在物体上,经过它的反射或透射,或由发光物体本身发出的光能量,在人的视觉器官中重现出物体的视觉信息。图像按其亮度等级不同,可以分为二值图像(只有黑白两种亮度等级)和灰度图像(有多种亮度等级)两种;按其色调不同,可分为无色调的灰度(黑白)图像和有色调的彩色图像两种;按其内容的变化性质不同,有静态图像和活动图像之分;按其所占空间的维数不同,可分为平面的二维图像和主体的三维图像等。
图像亮度一般可用多变量函数来表示:
其中,x、y、z表示空间某点的坐标,t为时间轴坐标,λ为光的波长。当取Z=Z0时,表示二维图像;当取t=t0时,或I与t无关时,则表示静态图像;当λ取定值时,表示单色图像。
一般,由于I表示的是物体的反射、透射或辐射能量,因此它是正的且有界限的,即:
其中,Imas表示I的最大值,I=0时表示绝对黑色。
图像信息转化为电信号后大体上有两种方式,一种是模拟方式,或称作模拟基带信号;另一种是数学方式,或称作数字基带信号。一般情况下是先将模拟基带信号数字化,形成数字基带信号。近来有些图像设备,如数字摄像机、数字照相机等,它们可以直接输出模数转换这一过程,即可缩小设备体积,降低设备成本,还可提高设备的可靠性。
这里需要指出的是,如果模拟基带信号还具有图像信号的特点,那么数字信号就基本上看不出图像信号的特征,它和其他数字信号的表示形式一样,都是二进制的比特流。
二、图像信号数字化
图像的光强度分布,是空间坐标x、y、z的函数,如f(x、y、z)。如果是一幅彩色图像,各总值还应反映出色彩变化,即用f(x、y、z、λ)表示,其中λ为波长。若是活动彩色图像,还有时间t的函数,即用f(x、y、z、λ、t)。对于模拟图像,f(0)是一个非零的连续函数,并且是有限度的,也就是说O≤f(x、y、z、λ、t)<∞。
人眼所感知的景物一般是连续的,称之为模拟图像。这种连续性包含两个方面含义,即空间位置延续的连续性,以及每个位置上光强度变化的连续性。连续模拟函数表示的图像无法用计算机进行处理,也无法在各种数字系统中传输或存储,必须将代表图像的连续(模拟)信号转变为离散(数字)信号。这样的变换过程称其为图像信号的数字化。
图像在空间上的离散化过程称为取样或抽样,被选取的点成为取样点、抽样点或样点,这些取样点也称为像素。在取样点上的函数值称为取样值、抽样值或样值,即在空间上用有限的取样点来代替连续无限的坐标值。样点取得越多,增加了用于表示这些样点的信息量;样点取得过少,则有可能丢失原图像所包含的信息。所以,最少的样点数应该满足一定的约束条件:由这些样点,采用某种方法能够完全重建原图像。这就是二维取样定论的内容。
对每个取样点赋予灰度值的过程称为量化,即用有限个数值来代替连续无限多的连续灰度值。常见的量化可分为两大类:一类是将每个取样值独立进行量化的标准量化方法,另一类是将若干取样值联合起来作为一个矢量来量化的矢量量化方法。在标准量化中按照量化等级的划分方法不同又分为两种,一种是将取样点灰度值等间隔分档,称为均匀量化;另一种是不等间隔分档,称为非均匀量化。值得注意的是,量化本身是指对模拟取样值进行一种离散化处理的过程,无论是标准量化还是矢量量化,其对象都是模拟值。但实际量化时,往往是首先将模拟量采用足够精度的均匀量化的方法形成数字量,也就是通常所说的PCM编码(几乎所有的A/D变换器都是如此),再根据需要,在PCM数字量化的基础上实现非均匀量化或矢量化。
三、图像取样
图像取样主要解决的问题是找出能从取样图像精确地恢复原图像所需的最小M和N(M、N分别为水平和垂直方向取样点的个数),即各取样点在水平和垂直方向的最大间隔,这一问题由二维取样定理解决,它可以看作一维奈奎斯特(Nyguist)取样定论的推广。
取样频率是减少图像数据的最直接、简单易行的手段之一,因此常用这种方法来降低数据量。但是取样频率的高低受到取样定理的约束,满足取样定理下限条件(取样定理中的不等式取等号)的取样频率称为奈奎斯特取样频率,这一频率界定取样图像无失真地恢复原图像的最低频率。当取样定理的条件不满足时,也就是取样频率小于奈奎斯特取样频率时,即常说的亚取样,取样图像频谱的各次谐波就会发生重叠,即所谓的频谱的混叠。对于已发生混叠的频谱,无论用什么滤波器都不可能将原图像的频谱分量滤取出来,此时在图像的恢复中将会引入一定的失真,通常称为混叠失真。因此,在采用亚取样进行图像数字化时的一个重要问题就是尽量减少频谱混叠所引起的失真。
下面用一种菱形亚取样的方法来了解在亚取样的场合减少混叠失真的情况。常见图像的频谱主要分布在二维频谱以原点为中心,4个顶点在U、V轴上的一个菱形范围内,如图5-1B中心阴影区所示。
图5-1 菱形亚取样及其频谱分布
在图像中,垂直的和水平的物体、线条、运动等比其他方向上多,因而反映在频谱中就是水平和垂直方向的频率分量要比其他方向多。于是就可以采用交叉亚取样的方法对模拟图像直接进行,也可对正交取样图像进行再取样。由于亚取样可以使数据量减少二分之一,因此被广泛采用。前面介绍的二维取样中取样点的分布是呈方格状的,即最基本的正交取样方式。这里介绍的菱形亚取样,如图5-1A所示,取样点的分布在水平方向和垂直方向是相互交错的,与间隔为△x,△y的正交取样相比,它在水平方面的密度要减少二分之一,是一种亚取样。但是,它的取样频谱在周期性延拓的过程中,由于原图像的菱形频谱结构而未发生频谱混叠,可以用适当的滤波器将其基本频谱部分滤出,以无失真(整形或失真较小)地恢复原图像。
四、图像量化
经过取样的图像,只是在空间上被离散成为像素(样本)的阵列,而每个样本灰度值还是一个有无穷多个取值的连续变化量,必须将其转化为有限个离散值,赋予不同码字才能真正成为数字图像,再由计算机或其他数字设备进行处理运算,这种转化称为量化。量化有两种方式:一种是将样本连续灰度值等间隔分层的均匀量化,另一种是不等间隔分层的非均匀量化。在两个量化级(即称为两个判决电平)之间的所有灰度值用一个量化值(称为量化器输出的量化电平)来表示。量化既然是以有限个离散值来近似表示无限多个连续量,就一定会产生误差,这就是所谓的量化误差,由此产生的失真即量化失真或量化噪声。
当量化层次少到一定程度时,量化值与模拟值之间的差值(量化误差)变得很严重,可引起严重的图像失真,尤其在原先亮度值缓慢平滑变化的区域引起生硬的所谓伪轮廓。图像量化的基本要求就是在量化噪声对图像质量的影响可忽略的前提下用最少的量化层进行量化。
通常对取样值进行等间隔的均匀量化,量化层次k取为2的n次幂,即k=2n。这样,每个量化区间的量化电平可采用n位(比特)自然二进制码表示,形成最通用的pcm编码。对于均匀量化,由于是等间隔分层,量化分区越多,量化误差越小,但是编码时占用比特数多。例如,采用8比特量化,那么图像灰度等级分为28=256层。例如,输入某图像样本幅度为127.2,则量化为127,可用二进制长码0 III IIII来表示。
在对取样值进行n比特的线性pcm编码时,每个量化分层的间隔(量化步长)的相对值为1/2n,假定取样值在它的动态范围内的概率分布是均匀分布,则量化误差的均方值为:
于是,峰值信号功率spp(其相对值为1)与量化均方噪声nq之比为:
上式为表征线性pcm的性能的基本公式,通常将其简称为量化信噪比,并用s/n表示。
由上式可知,每取样的编码比特数n直接关系到数字化的图像质量,每增减1比特,就使量化信噪比增减6db。选择n可以用主观评价方法,比较原图像与量化图像的差别,当量化引起的差别已觉察出或可以忽略时,所对应的最小量化层比特数即为n。目前,对于一般的应用,如电视广播,视频通信等,采用比特量化就可以基本满足要求。但对于高质量的静止图像,遥感图像处理等,则需要10比特或更高精度的图像。除均匀量化外,还可以根据实际图像信号的概率分布进行非均匀量化,以此可获得更好的量化效果。
量化器的设计方法和实现有两类,一类是标量量化,另一类是矢量量化。所谓标量量化是图像中每个样点的取值范围划分成若干区间,并仅用一个数值代表每个区间中所有的取值,每个样点的取值是一个标量,并且独立于其他样点的取值,所谓矢量量化(vector quantization,VQ)是将图像的每几个像素看成一个n维矢量,将每个n维取值空间划分为若干个子空间,每个空间用一个代表矢量来表示该子空间所有的矢量取值。
在标量量化里,每个样值的量化只与它本身的大小及分层的粗细有关,而与其他的择值无关。实际上图像的样值之间是存在着或强或弱的相关性,将若干个相邻像素当作一个整体对待,就可以更加充分地利用这些相关性达到更好的量化效果,这就是矢量量化的基本思路。如果将一个像素当作一组,此时的矢量量化,就是标量量化。所以说,标量量化是矢量量化的特殊情况。
矢量量化就是把图像的样值每n个作为一组,这n个样值可以看成一个n维空间。任何一组的n个样值都可以看成n维空间的一个点,或者说是n维空间的矢量。由于n维空间的每一维都是模拟量(或连续量),所以n维空间也是一个连续空间。尽管每一维的最大值是有限的(图像亮度或色度的最大值),但它所包含的矢量数目是无穷多的。矢量量化要做的工作就是将此n维连续空间划分为有限个区间(这一过程相当于标量量化中的分层),在每个区间找一个代表矢量(相当于被标量量化中的量化值)。凡是落在本区间的所有的矢量都用该代表矢量来表示,这就是矢量量化的基本方法。
矢量量化的过程如图5-2所示,可分为量化和反量化两部分。
在标量量化中,可以根据均方误差最小原则分别求出分层范围的判决电平和量化电平。与此类似,在矢量量化中,也可以根据某种失真最小原则,来分别决定如何对n维矢量空间进行划分,以得到合适c个分块,以及如何从每个分块选出它们各自合适的代表X。
量化过程将一幅MXN的图像依次分为若干组,每组n个像素构成一个n为矢量X。将得到的每个矢量X和码书中预先按一定顺序存储的码矢量集合{1i=1,2,……,C}相比较,得到最为接近的码Xj,并将其序号j发送到信道上。
图5-2 矢量量化过程示意图
反量化过程:解码器按照收到的序号j进行查表,从与编码器完全相同的码书中找到码矢量Xj,并用该矢量代替原始的编码矢量X。
矢量X和X的接近程度可以有多种衡量方法,最常用的误差测度是均方误差,相当于两者之间的欧几里德(eucliiolean)距离即:
该误差虽不能总和视觉结果相一致,但由于它计算简单而得到广泛应用。
五、图像编码
图像编码是利用图像固有的统计特性(信源特性),以及视觉生理、心理学特性(信宿特性),或者记录设备和显示设备等特性,从原始图像中经过压缩编码提取有效的信息,尽量除去无用的或用处不大的冗余信息,以便高效率地进行图像的数字传输或存储,而在复原时仍能获得与原始图像相同或相差不多的复原图像。图像编码类型较多,下面讨论一些与数字成像密切相关的编码。
(一)算术编码
计算机中存储和处理的最小数据单位是“比特”,在某些情况下实际的压缩效果往往达不到理论的压缩比。如信源符合[x、y],其对应的概率为[2/3、1/3],则根据理论计算,符号x、y的最佳码长分别为:
x:-log(2/3)=0.588bit
y:-log(1/3)=1.58bit
这表明,要获得最佳效果,符号[x、y]的码字长度是0.588,1.58位。而计算机不可能有非整数位出现,只能按整数位进行,即采用哈夫曼方法对[x、y]编码,得到[x、y]的码字分别为0和1,也就是两个符号信息的编码长度都为1。
哈夫曼方法是哈夫曼于1952年提出一种编码方法,它完全依据信源符号出现的概率大小来构造码字,这种编码方法形成的平均码字长度最短。实现哈夫曼编码的基本步骤是:①将信源符号出现的概率由大到小顺序排列;②将两处最小的概率进行组合相加,形成一个新概率,并按1步方法重排,如此重复进行直到只有两个概率为正;③分配码字,码字分配从最后一步开始反向进行,对最后两个概率一个赋于“0”码字,一个赋于“1”码字。如此反向进行到开始的概率排列,在此过程中概率不变采用原码字。
为了解决计算机从整数位进行编码的问题,人们提出了算术编码方法。算术编码是20世纪60年代初期Elias提出,由Rissanen和Pasco首次介绍了它的实用技术。算术编码是信息保持型编码,有固定方式的编码,也有自适应方式的编码,选择不同的编码方式,将直接影响编码效率。它不像哈夫曼编码,无需为一个符号设定一个码字。自适应算术编码无需先定义概率模型,对无法进行概率统计的信源比较合适,在这点上优于哈夫曼编码。同时,在信源符号概率比较接近时,算术编码比哈夫曼编码效率要高,在图像应用中常用它取代哈夫曼编码。
算术编码的方法是被编码的信源消息表示成实数轴上0~1之间的间隔(也称为子区间),消息越长,编码越长,编码表示它的间隔就越小,表示这一间隔所需的二进制位数就越多,码字越长。反之,编码所需的二进制的数就少,码字就短。信源中连续符号根据某一模式生成概率的大小来缩小间隔。
算术编码将待编码的图像数据看作是由多个符号组成的序列,对该序列进行算术运算后,成为一个二进制分数。在接收端,解码过程也是算术运算,由二进制分数重建图像符号序列。下面用一个算术编码的实例来说明算术编码的原理,如图5-3所示。
设图像信源编码用a、b、c、d这4个符号表示,如果符号a、b、c、d出现的概率分别是1/2、1/4、1/8和1/8,则信源编码符号集的所有符号的概率之和组成了一个完整的概率空间,可用单位长度的矩形来表示它(图7-3)。在此长度为1的单位矩形中,各个符号依次排列,所占宽度和它的概率大小呈正比。各个符号的左边的分界线称之为“码点”,每个码点有其相应的码点值,每个码点值是它前面所出现符号的概率之和。第一个码点的值为0,因为在它之前没有码字;由于d出现概率是1/8,故第二码点为0.001;由于b出现的概率为1/4,再加上d出现的概率为1/8,所以第三个码点值为两者之和,故为0.011,依此类推。这样形成了最初的符号空间分割。
图5-3 算术编码的子分过程
A.单位区间上的码点;B.符号序列“aab…”算术码的子分过程
算术编码的过程实质上是对此单位区间的子分(subdivision)的过程。可以设想有一个编码“指针”,随着所编码的进行,指针就不停地对单位区间进行划分。例如欲对“aabc……”进行算术编码,如图7-3B所示,其过程如下:编码前,指针指向码点“0”,指针活动宽度为“1”,即从0到1。
编码“a”,指针指向新码点:0+1+0.011=0.011(前面的码点+前面的宽度דa”的码点);指针有效活动宽度为:1×0.1=0.1(前面的单位长度דa”的概率)。
编码“a”,指针指向新码点:0.011+0.1×0.011=0.1001(前面的码点+前面的宽度דa”的码点);指针有效活动宽度为:0.1×0.1=0.01(前面的单位长度דa”的概率)。
编码“b”,指针指向新码点:0.1001+0.01×0.001=0.10011(前面的码点+前面的宽度דb”的码点);指针有效活动宽度为:0.01×0.01=0.0001(前面的单位长度דb”的概率)。
编码“c”,指针指向新码点:0.10011+0.0001×0.111+0.1010011(前面的码点+前面的宽度דc”的概率)
最后所得到的码点的值:1010011(忽视小数点)就是对“aabc”进行算术编码的结果。如果所给的码字数目更多,还可以依此类推地持续下去。随着所编的码字的增加,指针的活动范围越来越小,越来越精确,所编出的二进制码字越来越多。在上述的运算中,尽管含有乘法运算,但它可以用右移来实现,因此在算法中只有加法和移位运算。
(二)静止图像编码
静止图像是指从显示屏上观察到的内容不变的图像。从被摄对象来看,静止图像包括本身是静止的图像,以及活动场景在某一刻“凝固”的图像。如果从编码的角度来看,静止图像编码是指对单帧图像的编码。
对于静止图像编码有以下几点要求:
1.清晰度
由于图像是静止的,人眼易于观察图像中的细节,不能利用人的视觉暂留特性,与活动图像编码传输相比,要求有更高的清晰度。
2.逐渐浮现的显示方式
在窄带传输的场合,如果采用逐行顺序传输方式,需要较长时间才能传送一幅图像,为了使观察者不至于等待过长时间,或者出于传输效率等其他方面的考虑,往往要求编码能提供逐渐浮现的显示方式,即先传一幅模糊的整幅图像,然后随着传输的进行图像再逐渐清晰。
3.抗干扰
由于一幅画面的传输间隔较长,各种干扰噪声的影响在接收端显示屏上的保留时间就较长,对人眼观察极为不利,因此要求编码与调制方式都具有较强的抗干扰能力。
静止图像编码传输系统一般结构如图5-4所示。
图5-4 静止图像编码传输系统一般结构
摄像机摄下一幅图像,经过A/D数字化后送至帧存储器,这一过程就是通常所说的图像数据采集;另一种是利用数字摄像机直接得到数字图像。编码器对帧存储器(FM)中存放的数字图像进行压缩编码,再经调制后送到信道中传输。接收的过程是相反的过程,被接收的信号经调节、解码后送至帧存储器,然后以一定的方式读出,经D/A变换后显示屏上显示。
在这一系统中,存储器是连接图像采集和编码传输,以及接收解码与显示的桥梁。它一方面调整了采集与传输的速率,同时又为编码处理提供了数据存储空间。
静止图像编码的方法多种多样,下面介绍几种常见的方法。
1.方块编码(block truncation coding,BTC) 是把一幅图像分为大小为N×N的子像块(简称子块),由于小块内各相邻像素间具有亮度相近似的相关性,于是只选用两个适当亮度来近似代表小块内各像素原来的亮度,然后指出子块内的各像素分别属于哪个亮度。在方块编码中,子块越大,编码后每个像素的平均比特数越小,即压缩比越高。此时图像质量有所下降。因为方块尺寸越大,子块内像素的相关性越好,只用两个灰度作近似逼真度当然就越差。
2.比特面编码(bit plane coding) 是一种非常简单的编码方法,它把灰度图像的编码转换为对各比特面的二值编码。假如灰度图像为8bit/像素,将每个像素的第j个比特抽取出来,就得到一个称为比特平面的二值图像,于是图像完全可以用一组共8个比特平面来表示,对灰度图像的编码转为对比特平面的编码。通常将每个比特面分为不重叠的m×n个元素的子块,然后再进行二值编码。由于在进行比特面转换过程进行了数据按重要性进行分割,可以实现逐渐显示的编码,因此比特面编码应用很广泛。
3.TPEG基本系统 TPEG是ISO/IEC和ITU-T的联合图片专家小组(joint photographic eXpents group)的缩写,该小组的任务是选择一种高性能的通用连续色调静止图像压缩编码技术。JPEG标准根据不同的应用对图像的压缩提出几种不同的编码和解码方法,可分为基本系统、扩展系统和信息保持型系统。所有符合JPEG建议的编解码器都必须支持基本系统,而其他系统则作为不同应用目的选择项。基本系统提供顺序建立方式的高效有失真编码,输入图像的精度为8bit/像素。图5-5为JPEG基本系统的编码器的结构图。
图5-5 JPEG基本系统编码器的结构图
首先将整个图像分为不重叠的8×8像素子块(共有y、u、v三幅数字图像),接着对各个子块进行DCT变换,然后对所有的系统进行线性量化。量化过程是对系数值的量化间距划分后的简单的归整运算,量化步长取决于一个“视觉阈值矩阵”,它随系数的位置而改变,并且对y和uy分量也不相同。每个系数的量化步长设置是在通常的视觉距离下“正好可注意到幅值”。利用阈值,在编码率小于1bit/像素的条件下依然获得非常好的图像质量。当把量化步长乘以一个公共系数后,就可以调整比特率,由此可以实现自适应编码。
其次,对DCT量化系数进行熵编码,进一步压缩码率。对于当前子块的DC系数与上一块的DC系数差的值进行VLC编码压缩数据,这是由于DC分量是子块的平均值,相邻子块间的相关性很强,同时,视觉上要求各子块的平均灰度无明显的跳跃。因此对DC的差值作无失真的熵编码是合适的。对于AC系数,由于量化后的系数为稀疏的,仅少数AC系数不为零,因而采用“之”字形方式(zig-zag)进行扫描,然后将非零系数前面的“0”的游程长度(个数)与该系数值一起作为统计事件进行VLC编码。在基本系统中共推荐了两组Huffman码表,一组用于亮度信号Y,另一组用于色度信号U、V,每一组表又包括两张表,一个用于DC分量,一个用于AC分量。
JPEG2000标准:JPEG2000是JPEG工作组制定的最新的静止图像压缩编码的国际标准,标准号为ISO/IEC15444(ITU-T T.800),并于2000年底陆续公布。在JPEG2000前的JPEG标准,主要是它的基本系统被广泛应用,并且取得巨大成功。然而,它的一些缺点也随着它的医学图像、数字图书馆、多媒体、Internet和移动网络的推广而日益明显,虽然JPEG的扩展系统解决了这些问题,但范围非常有限。为了能够用单一的压缩码流提供多种性能、满足广泛的应用性,JPEG工作组于1996年开始探索一种新的静止图像压缩编码标准,将它称为JPEG2000。
JPEG主要由6部分组成,第一部分为编码的核心部分,具有最小的复杂性,可满足80%的应用需要,相当于JPEG标准的基本系统,公开并免费使用;第二至第六部分制定了压缩技术和文件格式的扩展部分,包括编码扩展(第二部分),Motion JPEG2000(MJP2,第三部分),一致性测试(第四部分),参考软件(第五部分),混合图像文件格式(第六部分)。
JPEG2000不仅提供了比JPEG基本系统更高的压缩效率,而且提供了一种对图像新的描述方法,可用单一码流提供适应多种应用的性能。特别是第一部分,它与JPEG的基本系统相比具有以下优点:①更高的压缩比;②同时支持有失真和无失真压缩;③支持多分辨率表示;④嵌入式码流(逐渐显示解码和SNR可分级);⑤叠置(tiling);⑥感兴趣区域(region-of-interest)编码;⑦抗误码;⑧码流的随机存取和处理;⑨对多重压缩/解压缩循环的性能改进;⑩更灵活的文件格式。
JPEG2000为了达到以上性能采用了许多新的压缩编码技术。首先,JPEG基本子块的PCT被全祯离散小波变换(DWT)取代。DWT自身具有多分辨率图像表示性能,而且它可以在大范围去除图像的相关性,将图像能量分布更好地集中,使压缩效率得到提高。其次,由于使用整数DWT滤波器,在单一码流中可以同时实现有失真和无失真压缩。第三,通过使用一种带中央“死区”的均匀量化器实现嵌入式编码。对于量化系数各比特面进行基本上下文的自适应算术编码,这些由比特面提供的嵌入式码流同时,又提供了SNR的可级性。进一步每个子带的比特面被限制在独立的矩形块中。通过3次扫描完成编码,由此得到最佳的嵌入式码流,改进抗误码能力,部分空间随机存取能力,简化了某些几何操作,得到了非常灵活的码流语法。
图5-6为JPEG2000的基本模块组成,其中包括预处理、DWT、量化、自适应算术编码以及码流组织等5个模块。原始图像数据→预处理→DWT→均匀量化(节中央死区)→自适应算术编码→码流组织→编码图像数据。
图5-6 JPEG2000基本编码的模块组成
(三)活动图像编码
所谓活动图像信号,就是通常所说的电视信号或视频信号,经过数字化以后即数字视频信号,也称为数字序列图像。对于活动图像编码有两个基本要求,即实时性和高效性。一方面,在活动图像编码系统中,图像在传输,图像的内容不断发生变化,接收端要解码恢复连续的活动电视图像。另一方面,由于活动图像的内容丰富,信息量大,所需的数码率很高。例如,对于视频信号用ITU-R建议中的的取样频率采集图像(8bit/像素),其数码率也高达216Mbit/s。即使去除了行均消隐时间部分,有效像素的码率也高达160Mbit/s。为了使数字图像能实用化,就必须采用高效的适应活动图像的压缩编码,使数字视频信号能以一定的目标码率进行传输,见图5-7。
图5-7 活动图像编码传输系统的基本框图
摄像(数字视频信号)→A/D→帧存→编码→缓存→调制→信道→解调→缓存→解码→帧存→D/A→显示。此图与静态图像系统的框图相比可以看出,两者之间的主要差别就在于活动图像的编码传输系统中必须要有一个传输缓冲存储器,这是因为有活动图像编码中,随着图像内容的变化,编码输出往往是间歇的不均匀码流,并且其特性与信道的传输特性不相适应,通过缓冲存储器可以对两者的差异进行“中和”,在一定范围内维持编码与传输的速率同步。例如,为了能在固定速率的信道上传输,利用缓冲存储器来平滑不均匀的数据流。一方面利用它的容量吸纳一部分码字,保证数据不间断地匀速输出,另一方面用它对编码器进行的反馈控制,使平均输入码率与输出码率相等。图5-8为缓存控制作用示意图。
根据不同的应用场合对图像质量要求也不同,选择相应的压缩编码方法,是数字图像通信中采取的一项重要措施。根据应用的情况,可以把图像编码分为:①标准数字电视,图像分辨率为720×576,采用ISO MPEC-2标准,约8Mbit/s的码率就达到演播室级的图像质量要求;②数字影碟机等,图像分辨率为352×288,国际标准为MPEG-1,码率为1.5Mbit/s,其中约1.2Mbit/s用于图像,其余与声音同步,可达到VHS录像带图像质量;③高清晰度电视,图像分辨率可高达1920×1080,具有两倍于现有标准的水平和垂直清晰度,采用ISO MPEG-2标准建议,码率约为20Mbit/s。
图5-8 缓存控制作用示意图
图5-9 分量编码系统的基本框图
对彩色视频信号进行压缩编码,有两种不同的编码方案,一种是复合编码,它直接对复合视频信号进行取样和编码传输;另一种是分量编码,它首先把复合视频中的亮度和色度信号分离出来,然后分别进行数字化和编码传输。目前分量编码已经成为视频信号压缩的主流,在系列图像压缩的国际标准中,均采用分量编码方案。在采集过程中充分利用了行场消隐时间,只取有用的图像信号,并利用信号的频谱和人的视觉特性,对亮度信号Y使用较高的取样频率。视频编码就是分别对它们进行压缩处理,使总码率降低。图5-9是分量编码系统的基本框图。
活动图像的压缩码主要从两方面着手,既考虑利用每幅图像内部的相关性进行所谓的帧内压缩编码,又要考虑利用相邻帧之间的相关性进行所谓帧间压缩编码,这样得到的最终码率才可能达到最佳。帧内编码即对单幅图像进行编码,原则上分为变换编码和预测编码两种基本类型。这两种类型相结合的编码为混合编码。混合编码充分考虑了序列图像在时间和空间上的特性,用变换编码消除帧内(空间)相关性,用帧内编码消除帧间(时间)相关性,可以达到很高的压缩比。