,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,概率统计与随机过程,宋 晖,2012,年秋,课程简介,本课程介绍概率统计、随机过程的基本原理,介绍与计算机学科领域相关的数学方法,说明如何应用统计方法建立问题求解的数学模型,并将其转化为已知问题。,要求学生学习使用,Matlab,工具箱实现相关算法,基于取样数据求解问题。,教学学时:,48,学时,授课:,32,学时,实验:,8,学时,课程考核,程序、实验报告:,30%,闭卷考试:,70%,主要内容,概率统计基础,常用概率分布,参数估计、假设检验,概率分析模型,回归分析,、,判别分析,聚类分析,随机过程,泊松过程,马尔科夫决策过程,课程实践,统计方法应用,选择下载某类数据集,实现所学统计分析方法的程序,调用程序分析数据集的数据,撰写应用分析报告,计算机学科应用,了解研究方向中概率统计、随机分析的应用,选定主题,撰写综述报告,参考教材,应用数理统计,华东理工大学出版社,刘剑平等著,理工科概率统计(第,8,版),机械工业出版社,,Ronald E.Walpole,应用随机过程概率模型导论(第,9,版),,北京邮电大学出版社,,(美),罗斯,著,Pattern Recognition and Machine Learning,Springer,Christopher M.Bishop,第一章 概率统计基础,1.1,基本原理,1.1.1,概率密度,1.1.2,期望与偏差,1.1.3,贝叶斯概率,1.1.4,高斯分布,Example 1-1,we have two boxes,one red and one blue,and in the red box we have 2 apples and 6 oranges,and in the blue box we have 3 apples and 1 orange.,随机变量(,Random Variable,):,B=r,b,F=a,o,问题:,1,)拿到一个苹果的概率是多少?,2,)已拿到一个橙子,该橙子来自红色盒子的概率是多少?,Suppose:,p,(,B,=,r,)=4,/,10,p,(,B,=,b,)=6,/,10,General Example,Random Variable,:,X=x,i,i=1,.,M,Y=y,j,j=1,L,Total number of instances:N trails,n,ij,:number of X=x,i,Y=y,j,c,i,:number of X=x,i,r,j,:number of Y=y,j,1,)联合概率,(,joint probability,):,p,(,X,=,x,i,Y,=,y,j,)=,n,ij,/N,3,)条件概率,(,conditional probability,):,2,)边缘概率,(,marginal probability,):,Sum Rule,:,Product Rule,:,Bayes theorem,:,(贝叶斯原理),贝叶斯原理是模式识别、机器学习等人工智能方法的基础原理,Model a probability distribution,Histogram(,直方图,),N=60,Back to Example 1,拿到苹果的概率?,已拿到一个橙子,该橙子来自红色盒子的概率是多少?,已知:,p,(,B,=,r,)=4,/,10,p,(,B,=,b,)=6,/,10,p,(,F,=,a,)=,p,(,F,=,a|B,=,r,),p,(,B,=,r,)+,p,(,F,=,a|B,=,b,),p,(,B,=,b,),=2/3,加法与乘法原理,贝叶斯原理,由观察可得:,p,(,F,=,a|B,=,r,)=1,/,4,p,(,F,=,o|B,=,r,)=3/4,p,(,F,=,a|B,=,b,)=3,/,4,p,(,F,=,o|B,=,b,)=1,/,4,=11/20,贝叶斯原理,Choose Box,:,P,(,B,),先验概率(,prior probability,),After observe fruit:,p,(,B|F,),后验概率(,posterior probability,),If,p,(,X,Y,)=,p,(,X,),p,(,Y,),then,p,(,Y|X,)=,p,(,Y,),X,Y independent,(,相互独立,),概率密度(,Probability Density,),连续变量,x,If the probability of a real-valued,variable,x,falling in the interval(,x,x,+,x,)is given by,p,(,x,),x,for,x,0,then,p,(,x,)is called the,probability density,over,x,The probability that,x,will lie in an interval(,a,b,)is then given by,:,随机变量函数的分布,x,=,g,(,y,),概率分布函数,Cumulative distribution function,The probability that,x,will lie in an interval(,-,z,)is then given by,:,连续变量的乘法、加法原理,边缘密度函数,期望(,Expectations,),E,f,:函数,f,(,x,),在概率分布,p,(,x,),下 的期望,discrete distribution,:,continuous variables,:,多变量函数,,E,x,f,(,x,y,),是求,x,的加权平均,结果为,y,的函数。,方差(,variance,),f,(,x,),的方差定义,实际计算公式,当,f(x)=x:,协方差,定义变量,x,,,y,之间一起变化的程度,Bayesian,Vs.frequentist Probability,classical or frequentist interpretation probability(,概率论的经典或频率解释,),In terms of the frequencies of random,repeatable event,(重复事件随机发生的频率),Bayesian view,a quantification of uncertainty,(不确定性的量化),经典概率,把数据(样本)看成是具有一定概率分布的总体,所研究的对象是这个总体而不局限于数据本身,高斯,(Gauss,C.F.17771855,)和勒让德(,Legendre,A.M.17521833,)的误差分析,正态分布和最小二乘法,将参数视为未知常量,通过估计方法决定,点估计:矩估计、极大似然估计,估计的误差考虑数据集,D,的分布获得,Bayes,概率,Bayes theorem was used to convert a prior probability into a posterior probability by incorporating the evidence provided by the observed data,将参数视为随机变量,使用概率分布去描述它的未知状况,该分布称为先验分布,经过抽样统计后,应用贝叶斯定理,获取参数的后验分布,后验分布反应人们在抽样后对参数的认识,参数估计,假设检验等都必须建立在后验分布基础上,Bayes,应用(一),例,1-2:,为了提高某产品质量,公司经理考虑投资改进设备,两下属部门提出针对该投资实施效果的两种估计,:,意见,1,:改进后,高质量产品占,90%,意见,2,:改进后,高质量产品占,70%,经理根据以往两部门建议情况认为:,意见,1,的可信度为,40%,意见,2,的可信度为,60%,小规模生产,2,次,试产,5,个,全是高质量产品,试产,10,个,,9,个高质量产品,意见,1,、,2,的可信度?,Bayes,应用(二),先验分布,抽样结果,后验概率,Bayes,应用(三),先验分布,第二次抽样结果,应用,Bayes,公式,后验概率,通过迭代,可以不断修正参数的概率分布,高斯分布,(,Gaussian,),Normal,正态分布,:均值(,mean,),2,:方差,,:标准方差,=1/,2,:,Precision,精确度,Gaussian,分布期望与方差,期望,方差,Gaussian,分布的似然函数,观测值的数据集,样本:,i.i.d.,x,的联合概率,x=(,x,1,.,x,N,),T,最大化似然函数求解,,,2,ML,、,2,ML,本身符合高斯分布,Gaussian,分布,参数的极大似然估计,decoupled with,2,(去耦合),无偏估计,有偏估计,,N ,,偏差可以忽略,作业,1.,证明,Gaussian,分布的方差,2.,采用,C+,编写程序,实现例,1-2,的贝叶斯概率计算过程。,假设进行,n,次试生产,计算最后得到的,样本数据集个数和观测值从文件中读入,计算过程封装为动态链接库,以,.dll,形式提供,主程序提供界面输入先验分布值、边缘分布值,显示计算结果。,Tomas Bayes,(,1701-1761,),神父,英国数学家,“上帝的存在可以通过方程式证明”,首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计的估算等做出了贡献。,Gaussian,(,1777-1855,),数学王子,数学成就比肩牛顿、阿基米德,德国著名数学家、物理学家、天文学家、大地测量学家,高斯的成就遍及数学的各个领域,在数论、非欧几何、微分几何、超几何级数、复变函数论以及椭圆函数论等方面均有开创性贡献。他十分注重数学的应用,并且在对天文学、大地测量学和磁学的研究中也偏重于用数学方法进行研究。,最重要贡献:,算术研究,