单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/11/24,#,深度学习之循环神经网络,陈鹏,1,深度学习之循环神经网络陈鹏1,目录,1,:深度学习发展史,2,:从神经网络到深度学习,3,:循环神经网络基础,4,:自然语言处理基础(扩充知识),2,目录2,1,:深度学习发展史,3,1:深度学习发展史3,深度学习发展史,SVM,Boosting,Decision tree,KNN,Neural network,Back propagation,1986,2006,Deep belief net,Science,Speech,2011,2012,Computer vision,NLP,Speech,2014,Geoffrey Hinton,1949,Learning model,of neurons,1958,Perceptron,Hebb,Rosenblatt,Geoffrey Hinton,DBN,CNN,RBM,RNN,机器学习第一次浪潮:,机器学习第二次浪潮,浅层学习模型,(Shallow Learning),深度学习模型,(Deep Learning),First Winter of NN,Second Winter of NN,4,深度学习发展史SVMNeural network198620,深度学习(多层神经网络),神经网络,神经元,5,深度学习(多层神经网络)神经网络神经元5,synapse,dendrite,Cell body,Synaptic,terminals,Axon,轴突末梢,突触,树突,细胞体,轴突,w,1,x,1,x,n,线性动态系统,激励函数,o,w,n,神经元是构成神经网络的最基本单元,(,构件,),因此,首要任务是构造人工神经元模型。,细胞体,Cell body,树突,dendrite,突触,synapse,轴突,Axon,来自其它神经元,神经元模型,6,synapsedendriteCell bodySynapt,y,y,a,x,o,x,2,x,1,x,n,w,1,w,2,w,n,w,1,x,1,x,n,激励函数,o=f,(,net,),w,n,net,=,W,T,X,典型的激励函数,(Activation Function),:,线性函数,非线性斜面函数,阶跃函数,,S,型函数等。,神经元模型,7,yyaxo x2x1xnw1w2wnw1x1xn激,Input Layer,Hidden Layer,Output Layer,x,1,x,M,h,1,h,L,o,1,o,N,w,11,w,m1,w,M1,w,mL,w,ML,w,1L,v,11,v,l1,v,L1,v,LN,神经网络一般形式,Nonlinearity,非线性,Parallel Processing,并行处理,InputOutput Mapping,输入输出匹配,Adaptivity,自适应性,o,c,x,2,x,1,x,n,w,1,w,2,w,n,8,Input LayerHidden LayerOutput,最简单的神经网络:,Perceptrons,9,最简单的神经网络:9,Single Layer Perceptrons,y,b,x,2,x,1,x,M,w,1,w,2,w,M,Rosenblatt,1957,u0,u sequence of words,e.g.Sentiment Classification,sequence of words-sentiment,e.g.,Machine Translation,seq of words-seq of words,e.g.,Video classification on frame level,Recurrent Neural Network27RNN基,Recurrent Neural Network,28,典型应用:,图像标注,Recurrent Neural Network28典型应用,Recurrent Neural Network,29,典型应用:语言生成,Recurrent Neural Network29典型应用,Recurrent Neural Network,30,典型应用:音乐作曲,Recurrent Neural Network30典型应用,循环神经网络模型,31,激活函数,RNN,常用的激活函数是,tanh,和,sigmoid,。,循环神经网络模型31激活函数RNN常用的激活函数是tanh和,循环神经网络模型,32,softmax,Softmax,函数是,sigmoid,函数的一个变种,通常我们将其用在多分类任务的输出层,将输入转化成标签的概率。,本质就是将一个K维的任意实数向量压缩(映射)成另一个K维的实数向量,其中向量中的每个元素取值都介于(0,1)之间。,循环神经网络模型32softmaxSoftmax函数是sig,循环神经网络模型,33,简单循环网络,SRN,神经元之间的,连接权重,在时域上,不变,。,循环神经网络模型33简单循环网络SRN神经元之间的连接权重在,循环神经网络模型,34,随时间反向传播算法,BPTT,BP,回顾,:定义损失函数,E,来表示输出,和真实标签,y,的误差,通过链式法则自顶向下求得,E,对网络权重的,偏导,。沿梯度的反方向更新权重的值,直到,E,收敛。,BPTT,的本质其实和,BP,很像,就是加上了时序演化。定义权重,U,,,V,,,W,。,定义损失函数,:,我们将整个序列作为一次训练,所以需要对每个时刻的误差进行求和。,循环神经网络模型34随时间反向传播算法BPTTBP回顾:定义,循环神经网络模型,35,随时间反向传播算法,BPTT,目前的任务是求,E,对于,U,,,V,,,W,的梯度。,定义,E,对于,W,的梯度,(,U,,,V,同理,):,(,1,)求,E,对于,V,的梯度。,先求,E,3,对于,V,的梯度,:,W,V,U,其中:,求和可得。,循环神经网络模型35随时间反向传播算法BPTT目前的任务是求,其中:依赖于 ,而 又依赖于 和,W,,依赖关系,一直传递到,t=0,的时刻。,因此,当我们计算对于,W,的偏,导数时,不能把 看作是常数项!,循环神经网络模型,36,随时间反向传播算法,BPTT,(,2,)求,E,对于,W,的梯度。注意,现在,情况开始变得复杂起来。,先求,E,3,对于,W,的梯度,:,W,V,U,当我们求 对于,W,的偏导时。注意到:,求和可得。,其中:依赖于 ,而 又依赖于,同样:依赖于 ,而 又依赖于 和,U,。,类似求,W,,当我们计算对于,U,的偏导数时,也不,能把 看作是常数项!,循环神经网络模型,37,随时间反向传播算法,BPTT,(,3,)求,E,对于,U,的梯度。情况与,W,类似。,先求,E,3,对于,U,的梯度,:,W,V,U,当我们求 对于,W,的偏导时。注意到:,求和可得。,同样:依赖于 ,而 又依赖于,循环神经网络模型,38,随时间反向传播算法,BPTT,参数意义,:,W,hv,:,输入层到隐含层的权重参数,,W,hh,:,隐含层到隐含层的权重参数,,W,oh,:隐含层到输出层的权重参数,,b,h,:,隐含层的偏移量,bo,输出层的偏移量,,h,0,:,起始状态的隐含层的输出,一般初始为,0,。,循环神经网络模型38随时间反向传播算法BPTT参数意义:,递归神经网络模型,39,随时间反向传播算法,BPTT,面临的问题:,梯度消失问题,梯度爆炸问题,解决方案:,选择其他的激活函数。例如,ReLU,。,引入改进网络结构的机制,例如,LSTM,,,GRU,。,现在在自然语言处理上应用十分广的的就是,LSTM,。,递归神经网络模型39随时间反向传播算法BPTT解决方案:,4,:自然语言处理基础,40,4:自然语言处理基础40,4.1,:什么是自然语言处理?,概念:研究人和计算机之间用自然语言进行通信的各种理论和方法,41,4.1:什么是自然语言处理?41,4.2,:词向量,42,1,:传统的,One-Hot Encode,离散单独符号表示单词,将一个单词转换成一个很长的向量。例子:,0,0,0,0,0,,,1,,,0,缺点:,A,:维数灾难,稀疏,B,:不能反映出单词之间的相似性,2,:分布式表示,将一个单词表示成固定维度(小维度)向量,分布式假设(,distribute,),:,上下文相似的词,其语义也相似,相近的词投影到高维空间后距离很近,词的表示,-,词向量,4.2:词向量421:传统的One-Hot Encode词,4.3,:,Word2Vec,43,现在常用的工具是,Google2013,年开源的,Word2Vec,:,根据采用的策略和模型我们主要分为以下几类,框架,模型,基于,Hierarchical,SoftMax,策略,CBOW,模型,Skip-gram,模型,基于,Negative,Sampling,策略,CBOW,模型,Skip-gram,模型,我们主要介绍架是,Negative Sampling,(负采样)模型,4.3:Word2Vec43现在常用的工具是Google20,4.4,:工作原理,44,Negative Sampling,概念:把语料中一个词替换为别的词,构造语料,D,中不存在的词串作为负样本,优化目标为:,最大化正样本的概率,同时最小化负样本的概率,。,例子:假设我们的目标是根据目标词汇预测该目标词汇的上下文,语料:,The quick,brown,fox jumped over the lazy,dog,这里我们的上下文长度取,1,;则对于,brown,单词而言,正样本,:(brown,quick),(brown,fox),负样本,:(brown,dog),4.4:工作原理44Negative Sampling概念:,4.4,:工作原理,45,对于一个给定的样本(,w,Context(w),),我们使用二项逻辑回归对其,样本,进行建模得,Negative Sampling,原理,则其全部正样本的似然函数为,则其全部负样本的似然函数为,4.4:工作原理45对于一个给定的样本(w,Contex,4.4,:工作原理,46,我们同时最大化正样本概率最小化负样本的概率就得到下式,对这个函数(模型)采用梯度下降算法进行训练,4.4:工作原理46我们同时最大化正样本概率最小化负样本的概,4.5,:工作模式,47,word2vec,中的基于,Negative Sampling,模型的两种方法,。,例子:,I am a student;,CBOW,:知道,am,,,student,,去预测,a,Skip-gram,模型:,知道,a,,去预测,am,,,student,4.5:工作模式47word2vec中的基于Negative,4.6,:实验步骤,48,原始语料,生成样本,训练模型参数,最终模型,生成结果,4.6:实验步骤48原始语料生成样本训练模型参数最终模型生成,THANKS,49,THANKS49,