资源预览内容
第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
第9页 / 共37页
第10页 / 共37页
第11页 / 共37页
第12页 / 共37页
第13页 / 共37页
第14页 / 共37页
第15页 / 共37页
第16页 / 共37页
第17页 / 共37页
第18页 / 共37页
第19页 / 共37页
第20页 / 共37页
亲,该文档总共37页,到这儿已超出免费预览范围,如果喜欢就下载吧!
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020-09-23,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020-09-23,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020-09-23,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020-09-23,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020-09-23,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,1,关联规则,2024/11/16,1关联规则2023/9/28,一、关联规则的定义,2,关联规则一般用以发现事务数据库中不同商品(项)之间的联系,用这些规则找出顾客的购买行为模式。,这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类。,2024/11/16,一、关联规则的定义2关联规则一般用以发现事务数据库中不同商品,3,二、关联规则:基本概念,(一)支持度与置信度,A,AB B,买尿布的客户,二者都买的客户,买啤酒的,客户,2024/11/16,3二、关联规则:基本概念(一)支持度与置信度 AAB,置信度,confidence(.),:是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。,4,1,、置信度,2024/11/16,置信度confidence(.):是指购物篮分析中有了左边商,2,、支持度,支,持,度,sup(.),:表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。,5,2024/11/16,2、支持度支持度sup(.):表示在购物篮分析中同时包含关联,例:,6,对于规则,A,C,support=support(A,C)=50%,confidence=support(A,C)/support(A)=66.6%,2024/11/16,例:6对于规则A C2023/9/28,交易项目,成交次数,夹克,球鞋,300,滑雪衫,球鞋,100,夹克,滑雪衫,球鞋,100,球鞋,50,慢跑鞋,40,夹克,慢跑鞋,100,滑雪衫,慢跑鞋,200,衬衣,10,夹克,40,滑雪衫,60,合计,1000,7,表,1,交易项目成交次数夹克,球鞋300滑雪衫,球鞋100夹克,滑雪,运动鞋,Y,1,单独,购买,合计,球鞋,Y,11,慢跑鞋,Y,12,上衣,X,衬衣,X,1,10,10,外套,X,2,夹克,X,21,400,100,40,540,滑雪衫,X,22,200,200,60,460,单独购买,50,40,合 计,650,340,1000,8,表,2,运动鞋Y1单独合计球鞋Y11慢跑鞋Y12上衣X衬衣X1101,规则“夹克球鞋”的计算,9,2024/11/16,规则“夹克球鞋”的计算92023/9/28,运动鞋,Y,1,单独,购买,合计,球鞋,Y,11,慢跑鞋,Y,12,上衣,X,衬衣,X,1,10,10,外套,X,2,夹克,X,21,1,0,0,1,滑雪衫,X,22,1,898,0,899,单独购买,0,90,0,90,合 计,2,988,10,1000,10,表,3,运动鞋Y1单独合计球鞋Y11慢跑鞋Y12上衣X衬衣X1101,存在的问题:,11,1.,高置信度,低支,持,度:,夹克,球鞋”的置信度高达,100,,但因为只有一人买了球鞋,这条关联规则支持度只有千分之一。,2.,支持度、置信度都比较高,但几乎是没有作用的规则。,“买方便面则买牛奶”,“买牙刷则买牛奶”,“喜欢野外休闲则会买牛奶”。,2024/11/16,存在的问题:111.高置信度,低支持度:2023/9/28,12,1,、关联规则的分类,二、关联规则的分类与作用,2024/11/16,121、关联规则的分类二、关联规则的分类与作用2023/9/,布尔型关联规则与数值型关联规则,布尔型关联规则,处理的值都是离散的、种类化的,它显示了这些变量之间的关系;,数值型关联规则,可以和多维关联或多层关联规则结合起来,,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,,当然数值型关联规则中也可以包含种类变量。,2024/11/16,13,布尔型关联规则与数值型关联规则布尔型关联规则处理的值都是离散,如果关联规则中的项或属性每个只涉及一个维,则它是,单维关联规则,;反之,为多维关联规则。,如,计算机,财务软件;,年龄,30,39,岁、月收入,4000,元以上高清电视,如果在给定的规则集中,规则不涉及不同抽象层的项或属性,就称,单层关联规则,;反之,称多层。,14,2024/11/16,如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则,2,、关联规则的作用,15,购物篮分析:关联规则就是要找出哪些产品总是会同时出现在客户的购物篮中。,商品摆放,基于商店不同的经营理念,如果将会经常一起购买的东西较近摆放,客户会比较方便购买,如果有意放在购物通道的两端,顾客寻找的过程中可以增加其他物品销售的可能性。,关联规则可以处理所谓的匿名消费。(一张发票就是一个购物篮,与决策树和类神经网络不同。),关联规则与时序规则相结合(不能匿名,适合会员制)。,先找出来哪些事务总是同时发生的关联规则,再加入时间的因素,找出哪些事务总是会先后发生的潜在规律。,2024/11/16,2、关联规则的作用15购物篮分析:关联规则就是要找出哪些产品,另外,只有同一个购物篮的商品信息能够分析的项目也很有限,因此,可以将气象资讯(温度、湿度、降雨)等转换为虚拟的商品项目,并入到购物篮中进行关联规则的分析。,如,日本,7-11,相当著名的“七五三”规则。即是说如果一天当中温度相差,7,度、今天和昨天的温度差到,5,度、湿度差大于,30%,的话,代表感冒的人会增加,药店就要考虑把感冒药、温度计和口罩之类的用品上架。,16,2024/11/16,另外,只有同一个购物篮的商品信息能够分析的项目也很有限,因此,三、,关联规则的挖掘,17,2024/11/16,三、关联规则的挖掘172023/9/28,(一)关联规则挖掘的步骤,第一步:找出所有频繁项集:根据定义,这些项集出现的频繁性(,支持度,)至少和预定义的最小支持度一样。,第二步:由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。,18,2024/11/16,(一)关联规则挖掘的步骤第一步:找出所有频繁项集:根据定义,,19,对于一个给定的候选数据集,项集的数目呈指数增长。,2024/11/16,(二),Apriori,演算法,19对于一个给定的候选数据集,项集的数目呈指数增长。2023,关联规则计算虽然容易但由于规则太多容易形成“组合爆炸”,因此,需要对这些规则进行筛选,筛选需要的统计量如下:,最小支持度,:规则必须符合的最小支持度阀值。,最小置信度,:计算规则所必须符合的最低置信度阀值。,如果关联规则满足最小支持度和最小置信度,可以说该规则是有趣的。,20,2024/11/16,1,、算法所需要的前置统计量:,关联规则计算虽然容易但由于规则太多容易形成“组合爆炸”,因此,2,、频繁项集,项的集合称为项集(,itemset,),包含,k,个项的项集称为,k-,项集。集合,计算机,金融管理软件,就是一个,2-,项集。,项集出现频数是包含项集的事务数,简称为项集的频数、支持计数或计数。,21,2024/11/16,2、频繁项集项的集合称为项集(itemset)212023/,如果项集满足最小支持度或满足,min_sup,与数据库中事务总数的乘积(即最小支持计数),则称它为,频繁项集,(frequent itemset),。,频繁,k-,项集的集合通常记作,L,k,。,2024/11/16,22,如果项集满足最小支持度或满足min_sup与数据库中事务总数,23,对于,A,C:,support=support(,A,、,C,)=50%,confidence=support(,A,、,C,)/support(,A,)=66.6%,最小支持度 50%,最小可信度 50%,例:,2024/11/16,23对于A C:最小支持度 50%例:2023/9/28,4,、,Apriori,算法:使用候选项集找频繁项集,Apriori,算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。,算法的名字基于这样的事实:算法使用频繁项集性质的先验知识。,它使用一种称作,逐层搜索的迭代方法,,,k-,项集用于探索,(k+1)-,项集。首先,找出频繁,1-,项集的集合。该集合记作,L,1,。,L,1,用于找频繁,2-,项集的集合,L,2,,而,L,2,用于找,L,3,,如此下去,直到不能找到频繁,k-,项集。找每个,L,k,需要一次数据库扫描。,24,2024/11/16,4、Apriori算法:使用候选项集找频繁项集Apriori,例,1,25,数据库,D,扫描,D,C,1,L,1,L,2,C,2,C,2,扫描,D,C,3,L,3,扫描,D,2024/11/16,为什么只有一项?,例125数据库D扫描DC1L1L2C2C2扫描DC3L3扫描,26,例:,L,3,=abc,abd,acd,ace,bcd,连接,:L,3,*L,3,abcd from abc and abd,acde from acd and ace,修剪,:,acde is removed because ade is not in L,3,C,4,=abcd,2024/11/16,Apriori,剪枝,频繁项集的任何子集也一定是频繁的。,26例:L3=abc,abd,acd,ace,bc,例,3,:,27,例3:27,3,、,Apriori,算法的实现过程,28,2024/11/16,3、Apriori算法的实现过程282023/9/28,4,、由频繁项集产生关联规则,一旦找出频繁项集,再通过最小置信度产生关联规则。,关联规则的产生步骤如下:,对于每个频繁项集,l,,产生,l,的所有非空子集。,对于,l,的每个非空子集,s,,如果,则输出规则“,s,(,l-s,),”。,29,2024/11/16,4、由频繁项集产生关联规则一旦找出频繁项集,再通过最小置信度,以例,3,为例,看其中一个频繁项集,l,=I1,I2,I5,,可以由,l,产生哪些关联规则?,l,的非空子集有,I1,I2I1,I5I2,I5I1I2I5,。结果关联规则如下,每个都列出了置信度。,如果最小置信度阀值为,70%,,则只有第,2,、,3,和最后一个规则可以输出。,30,2024/11/16,以例3为例,看其中一个频繁项集l=I1,I2,I5,可以,真正可取的规则具备的条件,31,并非所有的规则在符合阀值限制后都是有意义的,这样的规则还分为:,有用的规则:包含高品质的有效情报,常识,无法解释的结果,关联规则真正可取的是具备以下两个条件的规则:,人们常识之外、意料之外的关联,该规则必须具有潜在的作用,2024/11/16,真正可取的规则具备的条件31并非所有的规则在符合阀值限制后都,5,、案例,2024/11/16,32,5、案例2023/9/2832,2024/11/16,33,2023/9/2833,34,Apriori,算法的核心,:,用频繁的,(k,1)-,项集生成,候选的频繁,k-,项集,用数据库扫描和模式匹配计算候选集的支持度,Apriori,的瓶颈,:,候选集生成,巨大的候选集,:,10,4,个频繁,1-,项集要生成,10,7,个候选,2-,项集,要找尺寸为,100,的频繁模式,如,a,1,a,2,a,100,你必须先产生,2,100,10,30,个候选集,多次扫描数据库:,如果最长的模式是,n,的
点击显示更多内容>>

最新DOC

最新PPT

最新RAR

收藏 下载该资源
网站客服QQ:3392350380
装配图网版权所有
苏ICP备12009002号-6