*,*,管理信息学 杨善林 胡笑旋编著,第,6,章 信息处理,2024/11/18,6.3.1,多元数据的相关分析,6.3.2,聚类分析,6.3.3,判别分析,6.3.4,回归分析,6.3.5,时间序列分析,6.3,信息处理的统计学方法,2024/11/18,信息处理是使用适当的信息处理方法从样本数据集中自动抽取有用的规则(知识)。,针对不同的处理目标,支持信息处理的方法概括起来可分为:,统计学方法、人工智能方法、数据库技术及可视化技术等几类。,在实际应用中,信息处理方法往往是集成多项技术。,6.3,信息处理的统计学方法,2024/11/18,信息加工的统计学方法,2024/11/18,多元数据的相关分析,多元数据是指含有多个随机变量,(,常对应信息系统中的属性,),的一组数据,多元数据的相关性分析就是找出各随机变量之间的关联关系。,6.3.1,多元数据相关分析,统计相关关系是变量之间存在的不完全确定性的关系。,在实际问题中,许多变量之间的关系并不是完全确定的,例如居民家庭消费与居民家庭收入这两个变量的关系就不是完全确定的。,多元数据相关分析,相关的种类,2024/11/18,聚类分析,聚类分析是把研究对象按照一定的规则分成若干类别,并使类之间的差别尽可能地大,类内的差别尽可能地小,,换句话说,使类间的相似性最小、而类内的相似性最大。,聚类方法的核心问题是样本间的相似性度量,通常用距离来度量。,6.3.2,聚类分析,2024/11/18,谱系聚类法,谱系聚类法是根据给定数据集产生一个层次结构。其基本过程是:,开始每个样品各成一类,然后相继将两个最近的类合并成一个新类,直到所有的样品成为一个总类,从而得到一个按相似性大小聚集起来的一个谱系图。,聚类分析,2024/11/18,聚类分析,2024/11/18,动态聚类演示,聚类分析,2024/11/18,判别分析,(,分类,),判别分析或分类是指在得到一个新的样本数据时,判别该样本所属的类别。,距离判别方法,朴素贝叶斯,(,Bayes),判别方法:朴素(,naive,)贝叶斯判别法是依据数据点属于各类的可能性大小对数据点进行分类,采用的准则是把数据点分到可能性最大的类。,训练数据集,分类器,分类结果,新数据,(或检验数据集),6.3.3,判别分析,2024/11/18,回归分析,回归分析是应用极其广泛的数据分析方法,它基于样本数据建立变量间适当的依赖关系,以分析数据的内在规律。,线性回归模型和非线性回归模型等。,6.3.4,回归分析,2024/11/18,图 大白鼠的进食量与增加体重回归直线,回归分析,2024/11/18,回归分析在管理决策中的应用主要体现在以下两个方面:,(,1,)因素分析。,在现实生活中,某一项结果的产生,可能是很多个因素共同作用的结果。例如在医学研究中,有关生存与死亡,发病与未发病,阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、遗传、病史等许多因素有关。使用回归分析,我们可以发现到底是哪些因素对结果产生了影响,从而帮助我们做出正确的判断。,(,2,)预测。,预测经常取决于对两个或更多个变量的分析。其中,两个变量之间的回归分析称为一元回归,三个或三个以上变量之间的回归分析称为多元回归。例如,广告费和销售收入之间的关系是一元回归,而消费支出与收入及商品价格之间的关系则是多元回归。,回归分析,2024/11/18,时间序列分析,时间序列是按时间序列排列的、随时间变化且相互关联的数据序列,(,趋势性、季节性、随机性,),时间序列,(,上证指数三日走势,),P,1,(,t,),P,2,(,t,),P,3,(,t,),t,时间序列分析就是通过对时间序列样本进行分析,构造事件发生的数学模型,从而达到认识事物、了解其变化规律的目的。当模型建立完成后就能根据模型对事件进行预测或控制。,6.3.5,时间序列分析,2024/11/18,2024/11/18,时间序列分析方法,算术平均法,设长度为,n,的时间序列样本为,x,1,x,2,x,n,。则下一个时间点的预测值为:,这种方法只适合时间序列比较稳定的情况,它不能反映时间序列的变化趋势和季节变动。,时序分析,2024/11/18,2024/11/18,加权移动平均法,在实际数据中,有些时间序列具有一定的周期性或单调性,不同时间的数据影响不同,这时就可以用权重加以衡量。,指数滑动平均法,借助于加权因子,用当前的实际值(新信息)去修正上次的预测值,来得到下次的值。,时序分析,2024/11/18,季节性影响因子,时间序列除了趋势性、相关性、随机性以外,还常常具有周期性和季节性。把季节性因素作为分量对时间序列进行分解。季节性应理解为同期中具有相同特征的对应时间段。,时序分析,2024/11/18,机器学习的主要任务是从模拟人类的学习行为出发,研究客观世界和获取各种知识与技能的一些基本方法,并借助于计算机科学与技术原理建立各种学习模型,从根本上提高计算机智能和学习能力。,研究内容包括根据生理学、认知科学对人类学习机理的了解,建立人类学习的计算模型或认知模型;发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析;建立面向任务且具有特定应用的学习系统等。,6.4,信息处理的机器学习方法,2024/11/18,信息加工的机器学习方法,上图表示学习系统的基本结构。环境向系统的学习部分提供某些信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。,2024/11/18,决策树方法,年龄,病情,手术,心血管,类别,年龄,病情,手术,心血管,类别,中年,急,否,心悸,A,高龄,危,否,心绞痛,A,中年,急,是,心绞痛,A,高龄,急,否,心绞痛,A,中年,急,否,心律不齐,A,中年,急,是,心律不齐,B,老年,急,是,心悸,A,老年,危,否,心悸,B,老年,危,是,心绞痛,A,老年,危,是,心律不齐,B,老年,急,否,心律不齐,A,高龄,危,否,心悸,B,老年,危,否,心律不齐,A,高龄,危,是,心悸,B,决策表样本数据集,2024/11/18,所谓决策树是一个类似流程图的树结构,其中树的每个结点对应一个特征(属性)变量值的检验,每个分枝表示检验结果,树枝上的叶结点代表所关心的因变量的取值,最顶端的结点称为根结点。,从根结点到每个叶结点都有唯一的一条路径,这条路径就是一条决策“规则”。,如果每个内结点都恰好有两个分枝,则称为二叉树。,决策树方法,心血管,手术,病情,A,B,A,A,B,心悸,心绞痛,心律不齐,是,危,否,急,2024/11/18,决策树方法,图,示决策树是一个信用卡公司用来决定是否向客户发出办卡的邀请,树中从根节点到每个叶子节点的路径,都可以转化成一条,IFTHEN,规则。,2024/11/18,在管理中经常面对一些不确定信息。,不确定性来自人类主观认识与客观实际之间存在的差异。,事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性,都反映了这种差异,都会带来不确定性。,不确定性造成了具有相同描述信息的对象可能属于不同的概念。,提高处理不确定性信息的有效性,对帮助决策具有重要意义。,6.5,不确定信息的处理方法,2024/11/18,模糊集理论,2,、模糊集理论,模糊信息本身是确定性的,但其特征无法用精确数学工具描述和刻划,(,属性值确定,概念模糊,),。模糊信息的特征用模糊集刻划,它给出了总体中的元素与所刻划的特征之间的隶属程度。,(,隶属函数,),1,、概率论,任何一个模式,X,的出现具有随机性,用概率,P(,X,),去决定,X,发生的可能性大小,从而决定,X,的分类。,2024/11/18,设,a,i,表示属性“年龄”,当,a,i,的值域是离散的且为,幼儿,儿童,少年,青年,中年,老年,时,某对象是否是中年由属性,a,i,的值完全确定,此时只有当,a,i,(,x,j,),“中年”时,隶属度为,1,,其余为,0,;当,a,i,的值域是连续区间,(0,120),时,若中年的概念是精确地定义在,40,50,年龄段,则隶属函数是分段函数:,若中年的概念是模糊的,如大约,45,左右,则隶属函数可能是某种正态分布。,模糊集理论,2024/11/18,3,、灰集理论,灰信息所刻划的对象是指部份信息已知,部份信息未知。灰信息处理的目标是把未知信息变为已知信息的过程,即信息白化。它用上下隶属度函数将灰集中的未知信息约束在两个模糊集之间。,4,、未确知有理数,未确知理论是用来处理一类客观上是确定的但主观上无法获得的一类信息,如“某建筑物的重量是多少”。利用置信度模型分析未确知信息,(,x,是确知成份,a,的置信度,),灰集理论与未确知有理数,2024/11/18,5,、集对理论,集对分析用联系度统一处理模糊、随机、信息不完全所导致的系统不确定性。其基本思想是系统中不只存在某个单纯的不确定性信息,而是多种不确定性都存在。,6,、证据理论,证据是指我们的经验、知识以及对问题的观察和研究的结果,用基本可信度分配来描述。证据理论引入信度函数描述事物处于某种状态的可能性。它无需准确知道事物状态变化的概率。,集对理论与证据理论,2024/11/18,7,、粗糙集理论,模糊集理论处理的是因为概念的模糊而导致的对象分类模糊,粗糙集方法处理的是由于属性值模糊引起的对象分类模糊。,粗糙集理论反映了人们以不完全信息或知识去处理一些不可分辨现象的能力,或依据观察、度量到某些不精确的结果而进行分类数据的能力。,粗糙集理论的基本思想:,(1),知识是主体对论域中的客体进行分类的能力,分类能力越强,主体所具备知识的可靠度越高;,粗糙集理论,2024/11/18,(2),分类能力受主体分辨能力的影响,因此分类具有近似性;,(3),影响分类能力的因素,(,在信息系统中常描述为属性,),很多,不同的因素重要程度不同,其中某些因素起决定性作用;,(4),具有相同属性的实体,属性取值的不同对分类能力也产生影响;,(5),属性之间存在某种依赖关系。,粗糙集方法能够解决的基本问题:,(1),根据属性值表征对象集;,(2),发现属性间的,(,完全或部分,),依赖;,(3),冗余属性,(,数据,),的简化;,(4),发现最重要的属性,(,核,),;,(5),生成决策规则。,粗糙集理论,贝叶斯网络(Bayesian networks,)是以贝叶斯方法为基础的一种图形模式,它具有直观的问题表达能力和强大的推理能力,是描述不确定问题的优秀工具,近年来在专家系统、模式识别、决策支持系统等领域取得了成功的应用。,关于一组变量,的贝叶斯网络由两部分组成:,(,1,)一个有向无环图,S,,图中的节点与,U,中的变量一一对应,图中的有向边表达了变量之间的统计相关性。(,2,)与每一个变量相联系的条件概率分布,P,。,S,和,P,定义了,U,的联合概率分布。,2024/11/18,贝叶斯网络,2024/11/18,贝叶斯网络,