Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第十六讲 决策支持与人工智能:企业的智囊,商务智能分析方法,统计分析,数据挖掘,人工智能,统计分析,研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识。,客户的平均年龄?平均收入水平?销售额?,销售额是否与销售员的年龄、广告的强度等有密切关系?如果有关系,它们之间是什么关系?关系强度如何?,数据挖掘:多功能分析,从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。,知识形成过程,数据,信息,知识,商务智能,行为,案例:零售店的尿布与啤酒,购物篮分析:零售店的尿布与啤酒经常一起被销售,知识:啤酒和尿布摆放在一起,零售店:周五晚上尿布销量在一周尿布销量总量中占很大比例,知识:促销尿布?,商务智能:谁买?为什么买?互补品?,知识:周五晚上在尿布附近促销啤酒!,数据挖掘分类,关联分析,:,决定哪些事情将一起发生,分类,:如,信用卡申请者,分类为低、中、高风险,;客户流失风险分析,聚类,:,对记录分组,把相似的记录在一个聚集里,。客户细分,,哪一种类的促销对客户响应最好?,分类举例:,决策树,分类举例:,决策树,分类举例:,决策树,聚类,假设,某,银行拥有以下数据,:,1客户号;2储蓄账户余额;3活期账户余额;4投资账户余额;5日均交易次数;6信用卡支付模式;7是否有抵押贷款;8是否有赊账额度;,9客户年龄;10客户性别;11客户婚姻状况;12客户家庭情况(孩子数);13客户年收入;14客户是否拥有一辆以上小汽车;15客户流失状态。,K-means,聚类算法,人工智能:智能计算,人工神经网络,遗传算法,模拟退火算法,模糊数学,等等,智能,计算,也称“软计算”,是们受自然(生物界)规律的启迪,根据其原理,模仿求解问题的算法。,从自然界得到启迪,模仿其结构进行发明创造,这就是仿生学。这是我们向自然界学习的一个方面。,另一方面,还可以利用仿生原理进行设计,(,包括设计算法,),,这就是智能计算的思想。,如人工神经网络技术、遗传算法、模拟退火算法等。,人工神经网络,指模拟人脑神经系统的结构和功能,运用大量的处理部件,由人工方式构造的网络系统,突破了传统的、线性处理的数字电子计算机的局限,是一个非线形动力学系统,并以分布式存储和并行协同处理为特色,单个神经元的结构和功能极其简单有限,但是大量的神经元构成的网络系统所实现的行为却是极其丰富多彩的,人工神经网络,神经元,隐藏单元,输入,输出,人工神经网络,隐藏层,输出层,输入层,隐藏单元,输入,隐藏,输出,10,+,11,A+,12,B+,13,C,1,+,2,AGE+,3,INC,COMBINATION,ACTIVATION,tanh,(,1,+,2,AGE+,3,INC),=A,4,+,5,AGE+,6,INC,tanh,(,4,+,5,AGE+,6,INC),=B,7,+,8,AGE+,9,INC,tanh,(,7,+,8,AGE+,9,INC),=C,COMBINATION,COMBINATION,ACTIVATION,COMBINATION,ACTIVATION,年龄,收入,人工神经网络,规则:两个以上输入为,1,时,则输出为,1,人工神经网络,人工神经网络,人工神经网络,训练神经网络即调整神经元的权重,人工神经网络,的应用,神经网络的应用案例:银行,信用卡持有者的年龄、收入和职业,信用卡显示的大额购买额度,大额购买次数,大额购买交易地点,良好的交易,可能是欺诈性交易,输入层,隐藏层,输出层,遗传算法,(,Genetic Algorithm,:,GA,),遗传算法是一类通过模拟生物界自然选择和自然遗传机制的随机化搜索算法,由美国,J.Holand,教授于,1975,年首次提出。,它是利用某种编码技术作用于称为染色体的二进制数串,其基本思想是模拟由这些串组成的种群的进化过程,通过有组织地然而是随机地信息交换来重新组合那些适应性好的串,遗传算法对求解问题的本身一无所知,它所需要的仅是对算法所产生的每个染色体进行评价,并根据适应性来选择染色体,使适应性好的染色体比适应性差的染色体有更多的繁殖机会。,遗传操作,采用整数的二进制编码,x=10111,表示了,16+4+2+1=23,初始化种群,计算适应度,选择,交叉,变异,停止条件,最优个体,是,否,遗传算法,流程图,优点,:,解决非线性最优化问题,可以简化复杂的目标函数以及制约条件,最优化过程相对简单,缺点,:,不能很清楚地表示对那些部分进行了遗传运算,不能对数据进行可视化解释,TSP问题,位置编号,X,坐标,Y,坐标,1,16.47,96.1,2,16.47,94.44,3,20.09,92.54,4,22.39,93.37,5,25.23,97.24,6,22,96.05,7,20.47,97.02,8,17.2,96.29,9,16.3,97.38,10,14.05,98.12,11,16.53,97.38,12,21.52,95.59,13,19.41,97.13,14,20.09,92.55,TSP问题,随机路线为:,45101113141812763294,117104129148135236111,87912251411146313108,总距离:,71.1144,TSP问题,最优解路线,:,54314211091181371265,总距离:,29.3405,大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。,大数据更准确的应该叫“大数据挖掘”,大数据-资料,一天之中,互联网产生的全部内容可以刻满,1.68,亿张,DVD,;发出的邮件有,2940,亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达,200,万个(相当于,时代,杂志,770,年的文字量);卖出的手机为,37.8,万台,高于全球每天出生的婴儿数量,37.1,万,截止到,2012,年,数据量已经从,TB,(,1024GB=1TB,)级别跃升到,PB,(,1024TB=1PB,)、,EB,(,1024PB=1EB,)乃至,ZB(1024EB=1ZB),级别。国际数据公司(,IDC,)的研究结果表明,,2008,年全球产生的数据量为,0.49ZB,,,2009,年的数据量为,0.8ZB,,,2010,年增长为,1.2ZB,,,2011,年的数量更是高达,1.82ZB,,相当于全球每人产生,200GB,以上的数据。而到,2012,年为止,人类生产的所有印刷材料的数据量是,200PB,,全人类历史上说过的所有话的数据量大约是,5EB,。,IBM,的研究称,整个人类文明所获得的全部数据中,有,90%,是过去两年内产生的。而到了,2020,年,全世界所产生的数据规模将达到今天的,44,倍。,大数据-案例,你开心他就买,你焦虑他就抛,华尔街“德温特资本市场”公司首席执行官保罗,霍廷每天的工作之一,就是利用电脑程序分析全球,3.4,亿微博账户的留言,进而判断民众情绪,再以“,1”,到“,50”,进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。,霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。,这一招收效显著,今年第一季度,霍廷的公司获得了,7%,的收益率。,