深度学习-循环神经网络课件-

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019/11/24,#,深度学习之循环神经网络,陈鹏,1,深度学习之循环神经网络陈鹏1,目录,1,：深度学习发展史,2,：从神经网络到深度学习,3,：循环神经网络基础,4,：自然语言处理基础（扩充知识）,2,目录2,1,：深度学习发展史,3,1：深度学习发展史3,深度学习发展史,SVM,Boosting,Decision tree,KNN,Neural network,Back propagation,1986,2006,Deep belief net,Science,Speech,2011,2012,Computer vision,NLP,Speech,2014,Geoffrey Hinton,1949,Learning model,of neurons,1958,Perceptron,Hebb,Rosenblatt,Geoffrey Hinton,DBN,CNN,RBM,RNN,机器学习第一次浪潮：,机器学习第二次浪潮,浅层学习模型,(Shallow Learning),深度学习模型,(Deep Learning),First Winter of NN,Second Winter of NN,4,深度学习发展史SVMNeural network198620,深度学习（多层神经网络）,神经网络,神经元,5,深度学习（多层神经网络）神经网络神经元5,synapse,dendrite,Cell body,Synaptic,terminals,Axon,轴突末梢,突触,树突,细胞体,轴突,w,1,x,1,x,n,线性动态系统,激励函数,o,w,n,神经元是构成神经网络的最基本单元,(,构件,),因此,首要任务是构造人工神经元模型。,细胞体,Cell body,树突,dendrite,突触,synapse,轴突,Axon,来自其它神经元,神经元模型,6,synapsedendriteCell bodySynapt,y,y,a,x,o,x,2,x,1,x,n,w,1,w,2,w,n,w,1,x,1,x,n,激励函数,o=f,(,net,),w,n,net,=,W,T,X,典型的激励函数,(Activation Function),：,线性函数，非线性斜面函数，阶跃函数，,S,型函数等。,神经元模型,7,yyaxo x2x1xnw1w2wnw1x1xn激,Input Layer,Hidden Layer,Output Layer,x,1,x,M,h,1,h,L,o,1,o,N,w,11,w,m1,w,M1,w,mL,w,ML,w,1L,v,11,v,l1,v,L1,v,LN,神经网络一般形式,Nonlinearity,非线性,Parallel Processing,并行处理,InputOutput Mapping,输入输出匹配,Adaptivity,自适应性,o,c,x,2,x,1,x,n,w,1,w,2,w,n,8,Input LayerHidden LayerOutput,最简单的神经网络：,Perceptrons,9,最简单的神经网络：9,Single Layer Perceptrons,y,b,x,2,x,1,x,M,w,1,w,2,w,M,Rosenblatt,1957,u0,u sequence of words,e.g.Sentiment Classification,sequence of words-sentiment,e.g.,Machine Translation,seq of words-seq of words,e.g.,Video classification on frame level,Recurrent Neural Network27RNN基,Recurrent Neural Network,28,典型应用：,图像标注,Recurrent Neural Network28典型应用,Recurrent Neural Network,29,典型应用：语言生成,Recurrent Neural Network29典型应用,Recurrent Neural Network,30,典型应用：音乐作曲,Recurrent Neural Network30典型应用,循环神经网络模型,31,激活函数,RNN,常用的激活函数是,tanh,和,sigmoid,。,循环神经网络模型31激活函数RNN常用的激活函数是tanh和,循环神经网络模型,32,softmax,Softmax,函数是,sigmoid,函数的一个变种，通常我们将其用在多分类任务的输出层，将输入转化成标签的概率。,本质就是将一个K维的任意实数向量压缩（映射）成另一个K维的实数向量，其中向量中的每个元素取值都介于（0，1）之间。,循环神经网络模型32softmaxSoftmax函数是sig,循环神经网络模型,33,简单循环网络,SRN,神经元之间的,连接权重,在时域上,不变,。,循环神经网络模型33简单循环网络SRN神经元之间的连接权重在,循环神经网络模型,34,随时间反向传播算法,BPTT,BP,回顾,：定义损失函数,E,来表示输出,和真实标签,y,的误差，通过链式法则自顶向下求得,E,对网络权重的,偏导,。沿梯度的反方向更新权重的值，直到,E,收敛。,BPTT,的本质其实和,BP,很像，就是加上了时序演化。定义权重,U,，,V,，,W,。,定义损失函数,:,我们将整个序列作为一次训练，所以需要对每个时刻的误差进行求和。,循环神经网络模型34随时间反向传播算法BPTTBP回顾：定义,循环神经网络模型,35,随时间反向传播算法,BPTT,目前的任务是求,E,对于,U,，,V,，,W,的梯度。,定义,E,对于,W,的梯度,(,U,，,V,同理,):,（,1,）求,E,对于,V,的梯度。,先求,E,3,对于,V,的梯度,:,W,V,U,其中：,求和可得。,循环神经网络模型35随时间反向传播算法BPTT目前的任务是求,其中：依赖于，而又依赖于和,W,，依赖关系,一直传递到,t=0,的时刻。,因此，当我们计算对于,W,的偏,导数时，不能把看作是常数项！,循环神经网络模型,36,随时间反向传播算法,BPTT,（,2,）求,E,对于,W,的梯度。注意，现在,情况开始变得复杂起来。,先求,E,3,对于,W,的梯度,:,W,V,U,当我们求对于,W,的偏导时。注意到：,求和可得。,其中：依赖于，而又依赖于,同样：依赖于，而又依赖于和,U,。,类似求,W,，当我们计算对于,U,的偏导数时，也不,能把看作是常数项！,循环神经网络模型,37,随时间反向传播算法,BPTT,（,3,）求,E,对于,U,的梯度。情况与,W,类似。,先求,E,3,对于,U,的梯度,:,W,V,U,当我们求对于,W,的偏导时。注意到：,求和可得。,同样：依赖于，而又依赖于,循环神经网络模型,38,随时间反向传播算法,BPTT,参数意义,:,W,hv,:,输入层到隐含层的权重参数，,W,hh,:,隐含层到隐含层的权重参数，,W,oh,：隐含层到输出层的权重参数，,b,h,:,隐含层的偏移量,bo,输出层的偏移量，,h,0,:,起始状态的隐含层的输出，一般初始为,0,。,循环神经网络模型38随时间反向传播算法BPTT参数意义:,递归神经网络模型,39,随时间反向传播算法,BPTT,面临的问题：,梯度消失问题,梯度爆炸问题,解决方案：,选择其他的激活函数。例如,ReLU,。,引入改进网络结构的机制，例如,LSTM,，,GRU,。,现在在自然语言处理上应用十分广的的就是,LSTM,。,递归神经网络模型39随时间反向传播算法BPTT解决方案：,4,：自然语言处理基础,40,4：自然语言处理基础40,4.1,：什么是自然语言处理？,概念：研究人和计算机之间用自然语言进行通信的各种理论和方法,41,4.1：什么是自然语言处理？41,4.2,：词向量,42,1,：传统的,One-Hot Encode,离散单独符号表示单词,将一个单词转换成一个很长的向量。例子：,0,0,0,0,0,，,1,，,0,缺点：,A,：维数灾难，稀疏,B,：不能反映出单词之间的相似性,2,：分布式表示,将一个单词表示成固定维度（小维度）向量,分布式假设（,distribute,）,:,上下文相似的词，其语义也相似,相近的词投影到高维空间后距离很近,词的表示,-,词向量,4.2：词向量421：传统的One-Hot Encode词,4.3,：,Word2Vec,43,现在常用的工具是,Google2013,年开源的,Word2Vec,：,根据采用的策略和模型我们主要分为以下几类,框架,模型,基于,Hierarchical,SoftMax,策略,CBOW,模型,Skip-gram,模型,基于,Negative,Sampling,策略,CBOW,模型,Skip-gram,模型,我们主要介绍架是,Negative Sampling,（负采样）模型,4.3：Word2Vec43现在常用的工具是Google20,4.4,：工作原理,44,Negative Sampling,概念：把语料中一个词替换为别的词，构造语料,D,中不存在的词串作为负样本,优化目标为：,最大化正样本的概率，同时最小化负样本的概率,。,例子：假设我们的目标是根据目标词汇预测该目标词汇的上下文,语料：,The quick,brown,fox jumped over the lazy,dog,这里我们的上下文长度取,1,；则对于,brown,单词而言,正样本,:(brown,quick),(brown,fox),负样本,:(brown,dog),4.4：工作原理44Negative Sampling概念：,4.4,：工作原理,45,对于一个给定的样本（,w,Context(w),）,我们使用二项逻辑回归对其,样本,进行建模得,Negative Sampling,原理,则其全部正样本的似然函数为,则其全部负样本的似然函数为,4.4：工作原理45对于一个给定的样本（w,Contex,4.4,：工作原理,46,我们同时最大化正样本概率最小化负样本的概率就得到下式,对这个函数（模型）采用梯度下降算法进行训练,4.4：工作原理46我们同时最大化正样本概率最小化负样本的概,4.5,：工作模式,47,word2vec,中的基于,Negative Sampling,模型的两种方法,。,例子：,I am a student;,CBOW,：知道,am,，,student,，去预测,a,Skip-gram,模型：,知道,a,，去预测,am,，,student,4.5：工作模式47word2vec中的基于Negative,4.6,：实验步骤,48,原始语料,生成样本,训练模型参数,最终模型,生成结果,4.6：实验步骤48原始语料生成样本训练模型参数最终模型生成,THANKS,49,THANKS49,

最新DOC

最新PPT

最新RAR