单击此处编辑母版标题样式,编辑母版文本样式,第二级,第三级,第四级,第五级,ppt课件,深度学习与计算机视觉综述,胡玉针,170219,模式识别,施杰,170236,检测,1,ppt课件,深度学习与计算机视觉综述胡玉针 17021,本报告主要讲述在计算机视觉领域深度学习如何逐渐占据主流以及传统的识别算法的优缺点,较为详细的介绍了,CNN,卷积神经网络的架构,简单介绍了深度学习在视觉领域的应用范围。希望让大家了解这个领域的一些基本概念。水平有限,难免有错误的见解,希望不要误导大家。,2,ppt课件,2ppt课件,概述,人工智能是人类一个非常美好的梦想,跟星际漫游和长生不老一样。我们想制造出一种机器,使得它跟人一样具有一定的对外界事物感知能力,比如看见世界。,图灵在,1950,年的论文里,提出图灵测试的设想,即,隔墙对话,你将不知道与你谈话的,是人还是电脑。这无疑给计算机,尤其是人工智能,预设了一个很高的期望值。但是半个世纪过去了,人工智能的进展,远远没有达到图灵试验的标准。这不仅让多年翘首以待的人们,心灰意冷,认为人工智能是忽悠,相关领域是,伪科学。,50,多年时间有无数科学家提出很多机器学习的算法,试图让计算机具有与人一样的智力水平,但直到,2006,年深度学习算法的成功,才带来了一丝解决的希望。,3,ppt课件,概述 人工智能是人类一个非常美好的梦想,跟星际漫游,众星捧月的深度学习,深度学习在很多学术领域,比非深度学习算法往往有,20-30%,成绩的提高。很多大公司也逐渐开始出手投资这种算法,并成立自己的深度学习团队,其中投入最大的就是谷歌,,2008,年,6,月披露了谷歌脑项目。,2014,年,1,月谷歌收购,DeepMind,,然后,2016,年,3,月其开发的,Alphago,算法在围棋挑战赛中,战胜了韩国九段棋手李世石,证明深度学习设计出的算法可以战胜这个世界上最强的选手。,4,ppt课件,众星捧月的深度学习 深度学习在很多学术领域,比非,在硬件方面,,Nvidia,最开始做显示芯片,但从,2006,及,2007,年开始主推用,GPU,芯片进行通用计算,它特别适合深度学习中大量简单重复的计算量。目前很多人选择,Nvidia,的,CUDA,工具包进行深度学习软件的开发。,微软从,2012,年开始,利用深度学习进行机器翻译和中文语音合成工作,其人工智能小娜背后就是一套自然语言处理和语音识别的数据算法。,百度在,2013,年宣布成立百度研究院,其中最重要的就是百度深度学习研究所,当时招募了著名科学家余凯博士。不过后来余凯离开百度,创立了另一家从事深度学习算法开发的公司地平线。,Facebook,和,Twitter,也都各自进行了深度学习研究,其中前者携手纽约大学教授,Yann Lecun,,建立了自己的深度学习算法实验室;,2015,年,10,月,,Facebook,宣布开源其深度学习算法框架,即,Torch,框架。,Twitter,在,2014,年,7,月收购了,Madbits,,为用户提供高精度的图像检索服务。,5,ppt课件,在硬件方面,Nvidia最开始做显示芯片,但从2006及20,机器学习需要解决的问题?,6,ppt课件,机器学习需要解决的问题?6ppt课件,传统计算机视觉算法,特征感知,图像预处理,特征提取,特征筛选,推理预测与识别。,中间的特征提取,特征筛选主要是人工选取特征,:,传统的计算机识别方法把特征提取和分类器设计分开来做,然后在应用时再合在一起,,比如如果输入是一个摩托车图像的话,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学习。,7,ppt课件,传统计算机视觉算法特征感知图像预处理特征提取特征筛选,最著名的,SIFT,算子,即所谓的对尺度旋转保持不变的算子。它被广泛地应用在图像比对,特别是所谓的,structurefrom motion,这些应用中,有一些成功的应用例子。另一个是,HoG,算子,它可以提取物体,比较鲁棒的物体边缘,在物体检测中扮演着重要的角色。,这些算子还包括,Textons,,,Spin image,,,RIFT,和,GLOH,,都是在深度学习诞生之前或者深度学习真正的流行起来之前,占领视觉算法的主流。,8,ppt课件,最著名的SIFT算子,即所谓的对尺度旋转保持不变的算子。它被,几个(半)成功例子,一是八九十年代的指纹识别算法,它已经非常成熟,一般是在指纹的图案上面去寻找一些关键点,寻找具有特殊几何特征的点,然后把两个指纹的关键点进行比对,判断是否匹配。,然后是,2001,年基于,Haar,的人脸检测算法,在当时的硬件条件下已经能够达到实时人脸检测,我们现在所有手机相机里的人脸检测,都是基于它或者它的变种。,第三个是基于,HoG,特征的物体检测,它和所对应的,SVM,分类器组合起来的就是著名的,DPM,算法。,DPM,算法在物体检测上超过了所有的算法,取得了比较不错的成绩。,9,ppt课件,几个(半)成功例子一是八九十年代的指纹识别算法,它已经非常,人工选择特征存在的问题:,大量的经验,需要你对这个领域和数据特别了解,大量的调试工作。说白了就是需要一点运气,另一个难点在于,你不只需要手工设计特征,还要在此基础上有一个比较,合适的分类器算法,。同时设计特征然后选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。,10,ppt课件,人工选择特征存在的问题:大量的经验,需要你对这个领域和数据特,是否可以自动的选择特征?,即输入某一个模型的时候,输入只是图片,输出就是它自己的标签。比如输入一个明星的头像,出来的标签就是一个,50,维的向量(如果要在,50,个人里识别的话),其中对应明星的向量是,1,,其他的位置是,0,。,11,ppt课件,是否可以自动的选择特征?即输入某一个模型的时候,输入只是图片,人类又是怎么识别物体的?,1981,年诺贝尔医学生理学奖颁发给了,David Hubel,,一位神经生物学家。他的主要研究成果是发现了视觉系统信息处理机制,证明大脑的,可视皮层是分级的,。他的贡献主要有两个,一是他认为,人的视觉功能一个是抽象,一个是迭代,。抽象就是把非常具体的形象的元素,即原始的光线像素等信息,抽象出来形成有意义的概念。这些有意义的概念又会往上迭代,变成更加抽象,人可以感知到的抽象概念。,像素是没有抽象意义的,但人脑可以把这些像素连接成边缘,边缘相对像素来说就变成了比较抽象的概念;边缘进而形成球形,球形然后到气球,又是一个抽象的过程,大脑最终就知道看到的是一个气球。,12,ppt课件,人类又是怎么识别物体的?1981年诺贝尔医学生理学奖颁发给了,再谈如何识别摩托车?,看到图片中的摩托车,我们可能在脑子里就几微秒的时间,但是经过了大量的神经元,抽象迭代,。对计算机来说最开始看到的根本也不是摩托车,而是,RGB,图像三个通道上不同的数字,。,所谓的特征或者视觉特征,就是把这些数值给综合起来用统计或非统计的形式,把摩托车的部件或者整辆摩托车表现出来。,深度学习的流行之前,大部分的设计图像特征就是基于此,即把一个区域内的像素级别的信息综合表现出来,利于后面的分类学习。,如果要完全模拟人脑,我们也要模拟抽象和递归迭代的过程,,把信息从最细琐的像素级别,抽象到“种类”的概念,让人能够接受。,13,ppt课件,再谈如何识别摩托车?看到图片中的摩托车,我们可能在脑子里就几,CNN,卷积神经网络,概述,典型的深度学习模型就是很深层的神经网络,包含多个隐含层,多隐层的神经网络很难直接使用,BP,算法进行直接训练,因为反向传播误差时往往会发散,很难收敛,CNN,节省训练开销的方式是,权,值,共享,weight sharing,,让,一组,神经元使用相同的权值,主要用于,图像识别,领域,14,ppt课件,CNN卷积神经网络概述14ppt课件,卷积(,Convolution,)特征提取,卷积核(,Convolution Kernel,),也叫过滤器,filter,,由对应的权值,W,和偏置,b,体现,下图是,3x3,的卷积核在,5x5,的图像上做卷积的过程,就是矩阵做,点乘,之后的和,第,i,个隐含单元的输入就是:,,其中,就,是,与过滤器,filter,过滤到的图片,另外上图的步长,stride,为,1,,就是每个,filter,每次移动的距离,15,ppt课件,卷积(Convolution)特征提取卷积核(Convol,卷积特征提取的原理,卷积特征提取利用了自然图像的统计平稳性,这一部分学习的特征也能用在另一部分上,所以对于这个图像上的所有位置,我们都能使用同样的学习特征。,当有多个,filter,时,我们就可以学到多个特征,例如:轮廓、颜色等,多个过滤器,filter,(卷积核),16,ppt课件,卷积特征提取的原理16ppt课件,17,ppt课件,17ppt课件,池化(,Pooling,),也叫做,下采样,Pooling,过程,把提取之后的特征看做一个矩阵,并在这个矩阵上划分出几个不重合的区域,,然后在每个区域上计算该区域内特征的,均值,或,最大值,,然后用这些均值或最大值参与后续的训练,18,ppt课件,池化(Pooling)18ppt课件,最大,Pooling,的方法之后的结果,Pooling,的好处,很明显就是减少参数,Pooling,就有平移不变性(,(translation invariant,)如图,feature map,是,12x12,大小的图片,,Pooling,区域为,6x6,所以池化后得到的,feature map,为,2x2,假设白色像素值为,1,,灰色像素值为,0,,若采用,max pooling,之后,左上角窗口值为,1,Pooling,的方法中,average,方法对背景保留更好,,max,对纹理提取更好,深度学习可以进行多次卷积、池化操作,19,ppt课件,最大Pooling的方法之后的结果 19ppt课件,激活层,在每次卷积操作之后一般都会经过一个非线性层,也是激活层,现在一般选择是,ReLu,层次越深,相对于其他的函数效果较好,还有,Sigmod,tanh,函数等,sigmod,和,tanh,都存在饱和的问题,如上图所示,当,x,轴上的值较大时,对应的梯度几乎为,0,,若是利用,BP,反向传播算法,可能造成梯度消失的情况,也就学不到东西了,20,ppt课件,激活层在每次卷积操作之后一般都会经过一个非线性层,也是激活,全连接层,Fully connected layer,将多次卷积和池化后的图像展开进行全连接,如右图所示。,接下来就可以通过,BP,反向传播进行训练了,所以总结起来,结构可以是这样的,21,ppt课件,全连接层 Fully connected layer将多次,操作的实例:,LeNet,网络,Le,顾名思义就是指人工智能领域的大牛,Lecun,。这个网络是深度学习网络的最初原型,因为之前的网络都比较浅,它较深的。,LeNet,在,98,年就发明出来了,当时,Lecun,在,AT&T,的实验室,他用这一网络进行字母识别,达到了非常好的效果。,怎么构成呢?输入图像是,3232,的灰度图,第一层经过了一组卷积和,生成了,6,个,28X28,的,feature map,,然后经过一个池化层,得到得到,6,个,14X14,的,feature map,,然后再经过一个卷积层,生成了,16,个,10X10,的卷积层,再经过池化层生成,16,个,55,的,feature map,。,22,ppt课件,操作的实例:LeNet网络Le顾名思义就是指人工智能领域的,从最后,16,个,5X5,的,feature map,开始,经过了,3,个全连接层,达到最后的输出,输出就是标签空间的输出。由于设计的是只要对,0,到,9,进行识别,所以输出空间是,10,,如果要对,10,个数字再加上,26,个大小字母进行识别的话,输出空间就是,62,。,62,维向量里,如果某一个维度上的值最大,它对应的那个字母