Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,静止图像编码(bin m),第一页,共37页。,静止图像的采样(ci yn)与量化,第二页,共37页。,静止图像采样(ci yn),空间轴上二维伸展,时间轴上一点。,图像的色彩(sci)由人眼决定,三元色RGB。,图像的数字化,在二维平面上,将图像划分为一个个很小的方块,每个方块内近似具有同样的色彩(sci)。这样的方块称为像素。,实际应用中,像素数决定于图像输出设备的分辨率。若分辨率较低,则每个像素对应的方块较大,就能明显看到块的结构,如大屏幕电视。,第三页,共37页。,静止图像采样(ci yn),量化,如果图像的细节很精致(如电视台专用的测试信号),则像素分割仍无法体现细节。类似时域的奈奎斯特采样定理。,每个像素有对应的色彩,有不同(b tn)的色彩分量。直接的色彩空间是RGB,每个分量采用8bit量化,一共可以表示 种色彩,基本上可以接近原始的真实色彩。,人眼实际上对亮度信号更敏感,因此可以将色彩空间进行变换,得到YUV分量,每个分量依旧采用8bit量化。,第四页,共37页。,电视信号测试(csh)图,第五页,共37页。,图像压缩分类(fn li),第六页,共37页。,JPEG压缩(y su)实例,Zig-Zag扫描,将频率由低到高依次排列,-47 7 77-25-29 10 5 -6,68 1010,图像压缩的分类(fn li),变换域编码:KL,DCT,小波,14 17 22 29 51 87 80 62,算数(sun sh)编码(一),18 t1=3 a1=0.,离散傅立叶变换:有限长度离散信号(xnho)的傅里叶变换。,引入空间频率的概念,沿着某个空间方向信号(xnho)幅度产生变化,这种变化的速度就是空间频率。,第二十五页,共37页。,因此DCT变换后,如果抛弃了图像(t xin)的高频部分,则损失图像(t xin)细节。,12 -7 -13 -4 -2 2 -3 3,将信息符号按出现的概率由大到小顺序排列,18 t1=3 a1=0.,图像(t xin)为什么可以压缩?,熵冗余,像素间具有相关性,不同的符号具有不同的概率,视觉(shju)冗余,不是所有的细节都可见,不是所有的细节都需要看到,人眼的视觉(shju)特性,比如对亮度比色度敏感,对黄、绿等颜色更敏感等等。,第七页,共37页。,图像压缩的分类(fn li),对于一些特定要求的图像,如地图、遥感或航拍的图像,医疗图片,警用图片等,对细节要求很高,而且一旦出现失真(sh zhn),影响极大,此时一般用无损压缩。,对于娱乐用图片,如照片,广告,文字等,人们关心的重点是整体的视觉效果,因此可以使用有损压缩,以获得更好的压缩比。,第八页,共37页。,有损编码(bin m)与无损编码(bin m),无损编码(压缩比),无失真,完全(wnqun)可复原,不利用人的视觉特性,有损编码(压缩比10-200),有失真,可复原,利用了人的视觉特性,第九页,共37页。,无损编码(bin m),游程编码(bin m),一般采用熵编码(bin m),包括Huffman编码(bin m),香农编码(bin m),LZW编码(bin m),算数编码(bin m),游程编码(bin m)等。,游程编码(bin m)适用于二值图像,或者有大片同色部分的图像。典型应用是 的图像。,在二值图像中,一定是0,1交替出现,因此,如果假设每行都从0开始,则编码(bin m)时只需记录连续像素的个数,而不必记录像素的颜色。,比如像素为,游程编码(bin m)后为31132131,然后可以对多元序列进行Huffman编码(bin m)。,第十页,共37页。,香农编码(bin m)(一),根据香农定理,对二进制码,码字长度满足下面公式(gngsh),其中ti为该码字长度,Pi为该符号出现的概率,香农编码步骤,将信息符号按出现的概率由大到小顺序排列,按上面公式(gngsh)计算各概率对应的码字长度ti,计算各概率对应的累加概率ai,a1=0,a2=P2,a3=P2+P1,a4=P3+P2+P1,将累加概率转换为2进制小数,取前ti位,即为香农编码的结果,第十一页,共37页。,香农编码(bin m)(二),举例(j l),Y1概率0.40 t1=2 a1=0 00,Y2概率0.18 t1=3 a1=0.4 011,Y3概率0.10 t1=4 a1=0.58 1001,Y4概率0.10 t1=4 a1=0.68 1010,Y5概率0.07 t1=4 a1=0.78 1100,Y6概率0.06 t1=5 a1=0.85 11011,Y7概率0.05 t1=5 a1=0.91 11101,Y8概率0.04 t1=5 a1=0.96 11110,第十二页,共37页。,算数(sun sh)编码(一),20世纪60年代由Elias提出,是信息保持型编码,无须为一个符号设定一个码字。,举例说明,信源4个符号,a-1/2,b-1/4,c-1/8,d-1/8.要对aabc进行(jnxng)编码,利用单位长度的矩形来表示,指针起点为0,宽度为1。,第一个符号是a,指针指向0+1(宽度)*0.011(a的起始位置,宽度变为1(宽度)*0.1(a的宽度,第十三页,共37页。,算数(sun sh)编码(二),第二个符号是a,指针指向0.011+0.1(宽度(kund)*0.011(a的起始位置,宽度(kund)变为0.1(宽度(kund)*0.1(a的宽度(kund),第三个符号是b,指针指向0.1001+0.01(宽度(kund)*0.001(b的起始位置,宽度(kund)变为0.01(宽度(kund)*0.01(b的宽度(kund),第四个符号是c,指针指向0.10011+0.0001(宽度(kund)*0.111(c的起始位置,宽度(kund)变为0.0001(宽度(kund)*0.001(c的宽度(kund),第十四页,共37页。,算数(sun sh)编码(三),解码过程,码字为,在0-1空间里定位(dngwi),由于,所以第1个符号为a,0.1010011-0.011(a的起点)/0.1(a的宽度,由于,所以第2个符号为a。,0.100011-0.011(a的起点)/0.1(a的宽度,由于,所以第3个符号为b。,0.01011-0.001(b的起点)/0.01(b的宽度,由于就是c的起点,因此第4个符号是c,第十五页,共37页。,有损编码(bin m),对于大量图像(t xin),并不需要无损编码,只要人的视觉接收即可。此时重点在于压缩效率,故采用有损压缩。,有损压缩常采用以下方法,预测编码:点预测,帧内预测,帧间预测,变换域编码:KL,DCT,小波,量化编码:标量量化,矢量量化,第十六页,共37页。,变换(binhun)域编码 DCT变换(binhun),第十七页,共37页。,变换(binhun)域编码(1),在变换域(频率(pnl)域)上利用信源的相关性进行数据压缩。,变换的目的是寻找信号更有效的表示方式。简单来说,一个实际信号在信号空间中表示为一点,在各坐标方向上都有投影。对信号空间作线性变换,可以让该信号只在一个坐标方向上有投影,而其他分量为0。,以三维空间为例,蓝线表示(biosh)原有坐标系,信号点在三个方向上都有投影。坐标系线性变换后(红色),信号点只在一个坐标轴上有分量。从而达到了压缩的目的。,第十八页,共37页。,变换(binhun)域编码(2),上述方式,对每个信号都需要一个特定的坐标系变换,这是不现实的。对所有的信号,都要采用同样的坐标系变换,设该变换矩阵为T,是正交阵。,设一个离散信号由N个采样(ci yn)值组成,则对应N维向量空间,该信号可表示为一个N维向量X。,正交变换Y=TX。,变换后,Y也是一个N维向量,但其中N-M个分量近似为零。此时Y被压缩为只有M个分量,这就是变换域编码的基本原理,第十九页,共37页。,变换(binhun)域编码(3),使MSE最小的条件(tiojin)是,即变换矩阵是由X的协方差矩阵的特征向量构成,此最佳变换称为KLT变换。变换矩阵与信号的统计(tngj)特性相关,具体问题具体分析。,第二十页,共37页。,离散余弦(yxin)变换(1),离散余弦变换(DCT)是正交变换的一种,采用(ciyng)固定的基向量。,当信号是一阶平稳马尔可夫过程,且相关系数接近1,则DCT十分接近KLT。,一维DCT变换与,反变换,第二十一页,共37页。,离散余弦(yxin)变换(2),DCT的物理意义:空间频率的提取。,回顾:,傅立叶级数:连续周期性信号(xnho)可以分解为若干正弦信号(xnho)之和。,傅立叶变换:连续非周期信号(xnho)分解为连续谱。,离散傅立叶变换:有限长度离散信号(xnho)的傅里叶变换。,通过离散傅立叶变换,得到时域上的离散信号(xnho)的各频率分量,引入空间频率的概念,沿着某个空间方向信号(xnho)幅度产生变化,这种变化的速度就是空间频率。,第二十二页,共37页。,离散(lsn)余弦变换(3),斑马纹,木材横剖面,纵剖面的纹理具有典型的空间频率特性。,与时域信号相似,任何图像都具有空间频率。因此,与时域的傅立叶变换(binhun)相似,通过空间域的“傅立叶变换(binhun)”,得到空间频率,也可以起到数据压缩的效果。,DCT就是空间域的“傅立叶变换(binhun)”,DCT变换(binhun)后得到的系数,就代表了空间频率的分布情况。,第二十三页,共37页。,离散余弦(yxin)变换(4),对图像(t xin)而言,空间频率的高频部分代表其细节,低频部分代表其主体。因此DCT变换后,如果抛弃了图像(t xin)的高频部分,则损失图像(t xin)细节。,二维DCT变换的基函数图样。,第二十四页,共37页。,图像(t xin)分块,为什么图像处理要分块?,DCT必须对一段数据进行(jnxng)操作,如果只对一点做DCT,则没有意义。,分块操作,可以减小对存储器的需求,分块操作,可以将图像细化,每个块内的图像细节将不再起主要作用。因此可以将每块的DCT变换后的高频部分丢弃,而不影响图像质量。,如何分块:,正方形?矩形?,块的大小?块越小,图像细节保持的越好,编码用的比特越多;块越大,则相反。一般选择8*8像素大小的块。,产生的问题,马赛克效应。,第二十五页,共37页。,JPEG标准(biozhn),第二十六页,共37页。,JPEG标准(biozhn),JPEG是Joint Photographic Experts Group(联合图像专家小组)于1994年制定的一种图像编码格式,是在Web上最普遍的照片存储格式。在保证(bozhng)图像质量的前提下,可以将图像压缩为1/10到1/20。,JPEG是图像和视频编码的基础。后面出现的JPEG2000,等,都是以JPEG的框架作为基础的。,第二十七页,共37页。,JPEG流程(lichng),色彩空间(kngjin)转换,DownSampling,DCT,量化,熵编码,第二十八页,共37页。,JPEG流程(lichng)(1),色彩空间转换,一般来说,摄像头采集到的信号(xnho),是RGB格式,而我们需要YUV的分量进行处理,因此需要进行色彩空间转换。,Y是像素的亮度,UV表示色调与饱和度,转换公式如下:,第二十九页,共37页。,JPEG流程(lichng)(2),DownSampling,人眼对亮度信号很敏感,而对色调与饱和度则相对不敏感。,为了(wi le)提高编码效率,可以减