单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版文本样式,单击此处编辑母版文本样式,18 十一月 2024,医学数据仓库与数据挖掘,1,第,10,章,数据挖掘,数据挖掘在医学中的应用,08 十月 2023医学数据仓库与数据挖掘1 第 10,第十章 医学数据挖掘,医学结构化数据挖掘,医学结构化数据挖掘概述,医学结构化数据挖掘的应用研究,医学文本数据挖掘,文本数据挖掘概述,医学文本数据挖掘的应用研究,2,第十章 医学数据挖掘医学结构化数据挖掘2,医学数据挖掘,医学数据挖掘面向整个,医学数据库,或,医学信息集合,提供,知识,和,决策,,是,医疗决策支持系统,的重要组成部分。,医学数据,结构化医学数据:,数据结构明确、内容经整理可有效存储和处理。,如医学病历。,非结构化医学数据:,本身无规范结构、内容较复杂。,如医学多媒体数据、文本数据等,。,3,医学数据挖掘 医学数据挖掘面向整个医学数据库或医学,医学结构化数据挖掘,医学结构化数据挖掘概述,医学结构化数据产生,医学结构化数据来源,日常医疗实践,如医学影像处理的,PACS,系统、临床检验的,LIS,系统等信息化管理系统。,患者角度:登记挂号、就诊、开单检查,4,医学结构化数据挖掘医学结构化数据挖掘概述4,医院角度:各科室信息的统计和汇总。,非结构化数据(如手写病历、检验报告单)经录入可以转化为结构化数据。,医学结构化数据挖掘,医院角度:各科室信息的统计和汇总。,医学结构化数据挖掘,中医学结构化数据存在形式:文献数据库、临床数据库。,下面从三方面介绍医学结构化数据挖掘:,中医药文献数据库,挖掘对象:包含于中医药古籍文献以及当前的研究文献中的海量中医药数据。,提取知识。,6,医学结构化数据挖掘中医学结构化数据存在形式:文献数据库、临床,辛亥革命以前,:,中医药学古籍文献,13000,多种,辛亥革命以后,:,中医药图书,12000,多种,中医期刊,230,多种,19872003,年发表:中医药文献,530700,篇,医院信息管理系统,医生诊病问题:个人临床经验有限,难以从复杂,医学结构化数据挖掘,辛亥革命以前: 中医药学古籍文献13000多种医学结构化数据,医学结构化数据挖掘,混乱数据中提取知识。,挖掘对象:存储于,HIS,的大量病案数据,为医生提供极具价值的知识,优化传统医疗方案。,HIS=MIS+CIS,HIS,:医院信息管理系统;,8,医学结构化数据挖掘 混乱数据中提取知识。8,MIS,:管理信息系统,处理医院内部管理方面,CIS,:临床信息系统,处理以患者为中心的一系列相关信息,医学结构化数据挖掘,MIS:管理信息系统处理医院内部管理方面医学结构化数据挖掘,医学结构化数据挖掘,挖掘示例:从,CIS,数据库分析某种疾病治疗过程中诱发其他疾病的概率与时间的关系等。,方剂数据库,挖掘对象:医药复方。,挖掘隐含于复方的对疾病认识和治疗的科学规律,补充,10,医学结构化数据挖掘 10,中医药专家系统知识库。,复方新药的经验开发模式:根据自身知识与经验组方,临床验证,疗效好,药理学、中药化学研究。,复方新药的新开发模式:利用数据挖掘和,KDD,技术开发研制中药复方。,医学结构化数据挖掘,中医药专家系统知识库。医学结构化数据挖掘,医学结构化数据挖掘,医学结构化数据挖掘的应用研究,文献数据库的数据挖掘,大量的中医药信息的流失影响中医药学的发展,建设中医药科技信息数据库、实现“数字中医学”。,目前,国内外已建成的中医药相关数据库有近百个,以文字描述性数据库为主。,12,医学结构化数据挖掘医学结构化数据挖掘的应用研究12,方便了研究。,周连菊等建立的“,黄帝内经,计算机检索数据库系统”;,南京中医药大学研制出的“针灸腧穴文献资料检索系统”;,上海中医药大学研制的“,针灸大全,检索系统”;,医学结构化数据挖掘,方便了研究。医学结构化数据挖掘,医学结构化数据挖掘,陕西中医学院研制的“针灸甲乙经通检系统”;,中国中医研究院研制的“,ACULARS,针灸文献检索系统”。,为研究中医古籍提供了快捷的浏览和检索手段,方便了我们对中医古籍的研究。,14,医学结构化数据挖掘 陕西中医学院研制的“针灸甲乙经,医学结构化数据挖掘,医院信息管理系统中的数据挖掘,从完整的病案信息取得统计原始数据,为医疗管理及主管部门的决策提供前瞻性资料。,案例:,刘丹红等人用上呼吸道感染病例的病案首页数据和,决策树分析法,建立病情危重度分类评价模型;,15,医学结构化数据挖掘医院信息管理系统中的数据挖掘15,利用,贝叶斯神经网络,找出抗精神病药物与心肌炎和心脏病发作的关系;,粗集理论,用于肺癌的诊断、宫颈癌病变的检测等。,常用数据挖掘方法有很多种,它们分别从不同侧面、不同角度反映事物的本质:,医学结构化数据挖掘,利用贝叶斯神经网络找出抗精神病药物与心肌炎和心脏病发作的关系,医学结构化数据挖掘,统计分析和可视化技术:挖掘不同疾病在不同年龄段的至于时间、治愈率、平均费用等;不同疾病的地区分布情况等。,决策树、神经网络、粗糙集等:对病历记录挖掘,构造相应疾病的分类模型,并对每种疾病找出效果较好的治疗方案。,关联规则:挖掘哪些疾病并发的可能性较高,某些疾病与年龄、性别、居住地、,17,医学结构化数据挖掘统计分析和可视化技术:挖掘不同疾病在不同年,职业、生活习惯等的关系。,序列模型挖掘:病人的病情发展情况预测。,中医药领域的数据挖掘,(,1,)寻找新药先导化合物,医学结构化数据挖掘,职业、生活习惯等的关系。医学结构化数据挖掘,医学结构化数据挖掘,随机筛选与意外发现,定向挖掘,用数据挖掘去寻找先导化合物,指导中药新药的研究和开发,缩短中药研究开发的周期。,(,2,)开发中药复方,经验开发模式,数据挖掘和,KDD,技术开,(,3,)研究中药指纹图谱,用数据挖掘技术去发现和解析中药指纹图谱潜在信息,评价和控制中药质量及研究中药定量组效之间的关系。,19,医学结构化数据挖掘 随机筛选与意外发现定向挖掘19,医学结构化数据挖掘,(,4,)中医药信息化研究,对古语言和纯文本为主的中医药理论和实践进行结构化解释,促进中医药信息结构化、中药临床功效的规范化和标准化。,方剂数据库中的数据挖掘,(,1,)探讨复方配伍规律,如姚美村等人用,关联规则分析,技术对治疗消渴病的中药复方配伍的科学内涵进行探索性分析研究,建立复方特征数据库。,20,医学结构化数据挖掘(4)中医药信息化研究20,医学结构化数据挖掘,(,2,)药对研究,方剂配伍规律的研究需在药对研究的基础上从简到繁进一步深化;,高频用药组合分析是对药对分析的扩展。,如浙江大学用,Apriori,算法,对三个数据库中的方剂进行高频用药的知识发现和比较,与中国中医药对数据库中收录的药对进行对比分析,得到一系列实验结果。,(,21,医学结构化数据挖掘(2)药对研究21,3,)开发面向中医药方剂的数据挖掘平台,如浙大设计和开发的面向中医药方剂的数据挖掘平台。,医学结构化数据挖掘,3)开发面向中医药方剂的数据挖掘平台医学结构化数据挖掘,医学结构化数据挖掘,23,面向中医药方剂的数据挖掘平台,方剂选择系统,数据规范加工以及预处理系统,挖掘算法系统,高频分析系统,关联规则分析系统,聚类,/,分类分析系统,挖掘算法性能评价系统,医学结构化数据挖掘23面向中医药方剂的数据挖掘平台方剂选择系,医学结构化数据挖掘,中医证候分析,(,1,)辨证论治思维模式,多元化遣方用药模式,利用数据挖掘技术分析病、证、方、药之间的关系和规律,从药方证病的关系分析其制方的思维模式。,(,2,)对中医证候进行聚类挖掘,寻找与某些症状相似的证候。,(,3,)建立和使用针对特殊问题的概化模型,基于数据建模建立智能决策支持系统,加速中医药现代化、规范化和知识化进程。,24,医学结构化数据挖掘中医证候分析24,医学文本数据挖掘,文本数据挖掘概述,文本数据挖掘的定义,文本数据挖掘定义,从大量文本数据中抽取有效、新颖、可理解、最终可用的、散布在文本文件中的有价值的知识,并且运用这些知识更好地组织信息的过程。,25,医学文本数据挖掘文本数据挖掘概述25,文本挖掘的独特之处,(1),文本结构本身是半结构化或非结构化的,无确定形式且缺乏及其可理解的语义;,(2),涉及到多个学科领域。,多数文本数据库存放的是半结构化数据。,医学文本数据挖掘,文本挖掘的独特之处医学文本数据挖掘,医学文本数据挖掘,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称,文本挖掘,。,文本数据挖掘的分类,文本总结,抽取关键信息、对文本内容进行摘要或解释。,27,医学文本数据挖掘 当数据挖掘的对象完全由文本这种数据,文本分类,按照预先定义的主题类别,为文本集合中每个文本确定一个类别。,文本聚类,无预先定义好的主题类别,其目标是将文本集合分成若干个簇,要求同一簇内相似度尽可能大,不同簇间相似度尽可能小。,/,层次凝聚法,平面划分法,医学文本数据挖掘,文本分类医学文本数据挖掘,医学文本数据挖掘,文本关联分析,从文本集合中找出不同词语之间的关系。,文本分布分析与趋势预测,通过对,Web,文本的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。,29,医学文本数据挖掘文本关联分析29,文本挖掘过程,(,1,)特征集的建立,描述性特征:文本名称、日期、大小、类型等;,语义性特征:文本作者、机构、标题、内容等。,(,2,)特征集的缩减,对文本特征向量降维,缩减特征集,包括横向选择和纵向投影。,医学文本数据挖掘,文本挖掘过程医学文本数据挖掘,医学文本数据挖掘,横向选择:剔除有噪声文档或文档过多时仅选部分文档来挖掘;,纵向投影:根据挖掘目标选取有用特征,获得代表文档集合的有效、精简的特征子集。,(,3,)学习和知识模式的提取,通过分类和聚类,提取面向特定应用目的的知识模式。,(,4,)模式质量评价,31,医学文本数据挖掘 横向选择:剔除有噪声文档或文档过多时仅,对知识模式进行质量评价,若满足要求则保存;否则返回分析改进进行新一轮挖掘。,下面以文本分类来简单介绍结果模式评价,医学文本数据挖掘,对知识模式进行质量评价,若满足要求则保存;否则返回分析改进进,医学文本数据挖掘,文本分类的评价指标:,查准率,和,查全率,。,查准率和查全率反映了分类质量的两个不同方面,故为了公平起见,形成一种新的评估指标,即,F1,测试值:,33,医学文本数据挖掘文本分类的评价指标:查准率和查全率。33,医学文本数据挖掘,文本数据挖掘的关键技术,文本预处理,目的:,去掉那些文本中出现频率高而对识别文本类别作用不大的词,如“的、地、了”等。,一般方法,:,用高度概括的向量表示文本,将文本集,向量集,(,即特征集,),,对向量集分析达到文本集自动分类、聚类、产生摘要等目的。,(,1,)文本的向量空间表示,34,医学文本数据挖掘文本数据挖掘的关键技术34,用文本特征集表示原来文本,实现从非结构化,结构化的处理。,特征表示模型有:布尔逻辑型、概率型、向量空间型。,医学文本数据挖掘,用文本特征集表示原来文本,实现从非结构化结构化的处理。医学,医学文本数据挖掘,(,2,)文本特征的提取,一般特征:名词和名词短语;,数字特征:日期、货币、时间和单纯的数字信息等。,对文本进行特征标引可以利用,自动标引技术,。,标引:,给出信息内容特征的过程;,36,医学文本数据挖掘(2)文本特征的提取36,自动标引:,利用计算机技术自动分析出能够代表一段文本或一篇文章主题意义的词汇(即关键词或主题词)。,关键词标引,同义标引词泛滥,效果不好,主题词标引,提高标引质量,效果好,(,3,)文本的相似度,作用:提取重要段落或语句;文本分类和聚类。,医学文本数据挖掘,自动标引:利用计算机技术自动分析出能够代表一段文本或一篇文章,医学文本数据挖掘,文本特征向量可由文本与词的相关矩阵来描述,即,其中, 表示第,i,篇文本与第,j,个词的相关程度,,m,是文本总数,,n,是词的总数。,利用相关系数,S,来表示相关性的大小,如,S,ij,表示第,i,篇文本与第,j,篇文本的相关系数,则,38,医学文本数据挖掘文本特征向量可由文本与词的相关矩阵来描述,即,医学文本数据挖掘,文本分类,文本分类:根据文本的特征将其自动分配到预定义的类别。,(,1,)基于训练集的文本分类方法,如基于神经网络的方法、基于遗传算法的方法、基于,EM,算法的方法、基于文本特征向量相关性的方法等。,基于文本特征向量相关性的方法:,39,医学文本数据挖掘文本分类39,用规范化特征向量来构造每一个需要分类的文本,用规范化特征向量来构造每一个预定义类别,计算文本特征向量与类别特征向量的相似度来评价分类文本与每一个预定义类别特征之间的相关性。,医学文本数据挖掘,用规范化特征向量来构造每一个需要分类的文本医学文本数据挖掘,医学文本数据挖掘,(,2,)基于分类词表的文本分类方法,实际问题:一词多类、多词一类、每类中存在带共性的小类。,对文本的分类处理借助分类词表来完成的分类方法。,文本分类过程:,从信息库提取一条待分类记录;,41,医学文本数据挖掘(2)基于分类词表的文本分类方法41,把关键词作为检索键搜索关键词与类主题词联结库,获取类主题词;,通过类主题词查找类主题权重词库表,获取权值和分类号,当取完所有分类号和权值后。进行类号合并与权重求和;,医学文本数据挖掘,把关键词作为检索键搜索关键词与类主题词联结库,获取类主题词,医学文本数据挖掘,将所有取出的类号进行比较,根据分析结果定类。,分析归类一般如下考虑:,a),只有唯一的类号,直接归类;,b),有多个类号,权值最大的类号只有一个,将文本归入其类;,c),有多个类号的最大权值相等,删除权值最小的类号,在最大权值的类号中选出单一权值,43,医学文本数据挖掘将所有取出的类号进行比较,根据分析结果定类,最大值为首选类号,其他相同权值的类号作为辅选类号。,文本聚类,文本聚类是指将文本根据其特征分为多个类或簇。,硬聚类、软聚类。,医学文本数据挖掘,最大值为首选类号,其他相同权值的类号作为辅选类号。医学文本数,医学文本数据挖掘,(,1,)划分聚类法的原理,对于,k,值,先给定初始分组方案,然后通过反复迭代来改变分组,使得每次改进后的分组都比前一次好。,分组时要求满足:每个分组至少包含一个文本对象;每个文本对象属于且仅属于一个分组(模糊聚类除外)。,(,2,)划分聚类法的步骤,典型方法:,k-,中心点,45,医学文本数据挖掘(1)划分聚类法的原理45,医学文本数据挖掘,具体步骤:,确定要生成的簇的数目,k,;,生成,k,个聚类中心作为初始中心点;,依次计算每个文本与各中心点的相似度;,把当前文本归入与其具有最大相似度的中心点代表的簇;,重新确定每个簇的中心点;,重复执行步骤,35,,直到中心点不再改变,文本不再重新被分配为止。,46,医学文本数据挖掘具体步骤:46,医学文本数据挖掘,文本自动摘要,(,1,)基于统计的自动摘要,基本思想,通过记录关键词出现次数来选择摘要句,然后将选择出的摘要句按其在文本信息中出现的次序形成摘要。,一般过程,待摘要文本信息录入,47,医学文本数据挖掘文本自动摘要47,词频信息统计,计算句子的权重,选择候选句子,加工生成摘要,医学文本数据挖掘,词频信息统计医学文本数据挖掘,医学文本数据挖掘,(,2,)基于理解的自动摘要,基本原理,根据读者感兴趣的内容,利用语言学的手段将文章中代表这些信息焦点的文字识别出来,并用语言加以组织,形成一篇语言连贯,语义清晰的文摘。,一般过程,49,医学文本数据挖掘(2)基于理解的自动摘要49,待摘要文本信息录入,文本分析(语法分析,+,语义分析,+,句法分析),文摘初稿的生成,摘要排版输出,(,3,)模版填写式自动摘要,医学文本数据挖掘,待摘要文本信息录入医学文本数据挖掘,医学文本数据挖掘,以文摘框架为中枢,分为,选择,和,生成,两个阶段。,选择阶段 :利用特征词从文本中抽取相关的短语或句子填充文摘框架;,生成阶段:利用文摘模板将文摘框架中的内容转换成文摘输出。,(,4,)基于结构的自动摘要,51,医学文本数据挖掘 以文摘框架为中枢,分为选择和生成两个阶段,适用于科技文献等结构化含义强的文本,不适用于隐含意义强的文本,如诗歌、小说等。,常用的基于结构的自动摘要:,关联网络,语用功能,医学文本数据挖掘,适用于科技文献等结构化含义强的文本,不适用于隐含意义强的文,医学文本数据挖掘,医学文本数据挖掘的应用研究,中医古籍文献文本数据挖掘,确定中医古籍文献领域本体模型的构造步骤:,(,1,)确定中医古籍文献领域本体的专业领域和范畴,(,2,)考察复用现有本体的可能性,(,53,医学文本数据挖掘医学文本数据挖掘的应用研究53,3,)列出本体中的重要术语,(,4,)定义类和类的等级体系,(,5,)定义类的属性,(,6,)定义属性的分面,(,7,)创建实例,现代文献文本数据挖掘(略),医学文本数据挖掘,3)列出本体中的重要术语医学文本数据挖掘,医学文本数据挖掘,55,THE END,!,医学文本数据挖掘55THE END!,知识回顾,Knowledge Review,知识回顾Knowledge Review,