单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2021-01-03,#,聚类分析,1,聚类分析1,注意我们考核非常松,尽可能全部高于,80,分。,2,注意我们考核非常松尽可能全部高于80分。2,一个简单的聚类例子,这是按照颜色进行一维聚类。,实践中,维度经常多于一个。,3,一个简单的聚类例子这是按照颜色进行一维聚类。3,基本特点,聚类,(clustering),是指根据“物以类聚”原理,将本身尚未归类的样本根据多个维度(多个属性)聚集成不同的组,这样的一组数据对象的集合叫做簇或群组。,怎样聚类算成功呢?经过划分后,使得:,属于同一群组的样本之间彼此足够相似,,属于不同群组的样本应该足够不相似。,4,基本特点聚类(clustering)是指根据“物以类聚”原理,分类与聚类的区别,分类,(Classification),有训练过程。,分类是事先定义好类别 ,,类别数不变,。分类器需要由,人工标注,的分类训练数据集训练得到,属于有指导学习范畴。,而,聚类,则是没有训练过程。在进行聚类前,并不知道将要划分成几个组和什么样的组。,聚类则没有事先预定的类别,,类别数不确定,。聚类,不需要人工标注,和预先训练分类器,类别在聚类过程中自动生成 。,5,分类与聚类的区别分类(Classification)有训练过,聚类分析的主要应用领域,作为独立的工具来分析数据,发现离群点,为其他算法做数据预处理,6,聚类分析的主要应用领域作为独立的工具来分析数据6,聚类分析的最典型应用领域,客户分群,进而制定差异化的营销方案,7,聚类分析的最典型应用领域客户分群,进而制定差异化的营销方案,聚类分析的最典型应用领域,客户分群,进而制定差异化的营销方案,例子:如图,按照收入和年龄把客户聚类为两类,8,聚类分析的最典型应用领域客户分群,进而制定差异化的营销方案,聚类的其他应用,按照血型对学生进行分班,确定婚礼客人如何排座位,9,聚类的其他应用按照血型对学生进行分班9,离群点检测,离群点检测和聚类是高度相关的。,聚类是发现数据集中的主要群体,而离群点检测则试图识别那些显著偏离多数实例的异常情况。,离群点检测可以用聚类方法,但也可以用其它方法,例如:分类方法。,其常见的目的是:信用卡欺诈检测。,这需要把和正常交易明显不同的交易识别出来。例如,盗窃卡的人的购物地点和所购商品都很不同于真正的卡主、也不同于大多数顾客。,比如,其一次购物量比卡主大得多,并且购物地点远离卡主的通常的购物地点。,10,离群点检测离群点检测和聚类是高度相关的。10,聚类算法的分类,聚类算法主要包括:,划分方法(,Partitioning Method,):包括,K,均值方法等,层次方法(,Hierarchical Method,),基于密度的方法(,Density-based,),基于网格的方法(,Grid-based,),基于模型的方法(,Model-based,),其中,,前两种方法最常用,。,11,聚类算法的分类聚类算法主要包括:11,K,均值算法,K-means,算法是无可争议的使用最多的算法,。,它是划分方法的一种。,它原理简单,容易实现。,它适合使用数值型属性,而不是类别型属性。,它的一个不足之处是:对于离两个群组的中心都很近的点,你会不知道该放到哪个群组中。这其实也是其他一些聚类算法的局限性。,12,K均值算法K-means算法是无可争议的使用最多的算法。12,K,均值算法的步骤,K,均值算法,概括起来有五个步骤:,设定一个数,K,,表明总共有几个群簇(组);,从所有实例中,随机选择,K,个实例,分别代表一个群簇的,初始中心,;,对剩余的每个实例,根据其与各个组的,初始中心,的,距离,,将它们,分配,到离自己最近的一个群簇中;,然后,,更新群簇中心,,即:重新计算得出每个群簇的新的中心点;,这个过程,不断重复,(即:重复第,3,、,4,步),直到每个群簇中心,不再变化,,即直到所有实例在,K,组分布中都找到离自己最近的群簇。,13,K均值算法的步骤K均值算法,概括起来有五个步骤:13,K,均值算法,什么是中心值,14,K均值算法什么是中心值14,K,均值算法的步骤,注意看,C,点,它离上面的群的新的的距离中心比离下面那个群的新的中心更近,所以它被重新划分到上面那个群了。,15,K均值算法的步骤注意看C点,它离上面的群的新的的距离中心比离,K,均值算法的步骤,16,K均值算法的步骤16,K,均值算法的应用:图像压缩,群的个数越少,意味着图像被转化成颜色数量很少的图像了。,17,K均值算法的应用:图像压缩群的个数越少,意味着图像被转化成颜,K,均值算法的应用:图像压缩,原理和上面人物照片是一致的。,18,K均值算法的应用:图像压缩原理和上面人物照片是一致的。18,K,均值算法可以用于三个维度,前面图像压缩的例子是基于一个维度。,这里抽象展示了基于三个维度的聚类。,19,K均值算法可以用于三个维度前面图像压缩的例子是基于一个维度。,如何在软件中为,K,均值算法设定参数,在软件中,通常都要设定,群的个数,。,还可以指定,距离的度量,方式。例如选择欧几里德距离或曼哈顿距离。大多数聚类分析都使用距离度量来衡量两个实例之间的远近。,20,如何在软件中为K均值算法设定参数在软件中,通常都要设定群的个,如何在软件中为,K,均值算法设定参数,此外,还可以设定聚类时,采用哪些属性,同时,,数据标准化,是聚类分析中最重要的一个数据预处理步骤。如果之前没做过标准化,可以现在进行。,21,如何在软件中为K均值算法设定参数此外,还可以设定聚类时采用哪,如何评价聚类分析的结果?,这方面和分类算法有一个显著不同:,分类算法的评判有训练集、验证集的客观参照。,而聚类结果的评判,缺乏很明确,、客观的、统计学意义上的,参照,依据。,对于聚类,,业务,专家从实践角度的评估是最重要的评价层面。如果多数业务专家对于聚类的结果都看不懂,那么这个结果很可能是值得怀疑的。,如果聚类的结果比较容易理解、解释,业务人员会更能实施这个结果。,22,如何评价聚类分析的结果?这方面和分类算法有一个显著不同:22,聚类之前的预处理,特征筛选,在实践中,聚类中的,输入变量不能太多,,尤其是在样本数量有限的情况下。,否则:,运算耗时;,更重要的是变量之间的相关性会损害聚类效果;,变量太多会使人难以理解每个群的实际含义。,因此,通常会采用,相关性,分析、结合业务知识进行变量筛选等方法来降维。然后根据少量几个维度 进行聚类。,被筛掉的变量可以在聚类完成后再用于对每个群的进一步分析,比如描述性统计、分类算法。,23,聚类之前的预处理特征筛选在实践中,聚类中的输入变量不能太,聚类之前的预处理,异常值,K-means,对数据的噪声和,异常值,比较敏感。,这些个别数据对于平均值的影响非常大。,为此,我们可以:,直接删除那些比其他任何数据点都要远离聚类中心点的异常值。,与此类似地,在聚类之后,有些群体内样本数量太少、这种群体在实际应用中可以忽略不计。,采用随机抽样。这样,作为稀有事件的数据噪声和异常值能被抽进样本的概率会很小,这样样本就比较干净。,24,聚类之前的预处理异常值K-means对数据的噪声和异常值,聚类之前的预处理,标准化,正如之前讲到的,如果依据多个变量进行聚类,就需要确保对这些变量都做过标准化。,25,聚类之前的预处理标准化正如之前讲到的,如果依据多个变量进,聚类算法小结,K-means,算法,标准化,26,聚类算法小结K-means算法26,增强品质意识,强化安全观念。,11月-24,11月-24,Tuesday, November 19, 2024,是建立洁净亮丽,整齐舒适,安全高效的法宝。,00:24:06,00:24:06,00:24,11/19/2024 12:24:06 AM,清洁,-,拥有清爽明亮的工作环境。,11月-24,00:24:06,00:24,Nov-24,19-Nov-24,太太平平万家康乐,安安顺顺事业腾飞。,00:24:06,00:24:06,00:24,Tuesday, November 19, 2024,质量是交通建设的灵魂和生命。,11月-24,11月-24,00:24:06,00:24:06,November 19, 2024,麻痹是最大的隐患失职是最大的祸根。,2024年11月19日,12:24 上午,11月-24,11月-24,一心一意保安全,同心同德谋发展。,19 十一月 2024,12:24:06 上午,00:24:06,11月-24,隐患不除,危机四伏。,十一月 24,12:24 上午,11月-24,00:24,November 19, 2024,市场调查勤分析,掌握顾客之所需。,2024/11/19 0:24:06,00:24:06,19 November 2024,以厂为校,以厂为家,互相学习,互相关怀。,12:24:06 上午,12:24 上午,00:24:06,11月-24,学一分消防知识,多十分平安保障。,11月-24,11月-24,00:24,00:24:06,00:24:06,Nov-24,相信自己,相信伙伴。,2024/11/19 0:24:06,Tuesday, November 19, 2024,麻痹是最大的隐患,失职是最大的祸根。,11月-24,2024/11/19 0:24:06,11月-24,谢谢大家!,增强品质意识,强化安全观念。9月-239月-23Thursd,