Click to edit Master title style,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,Click to edit Master title style,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,物联网分析技术,案例分析,3,:医疗保险的欺诈发现,物联网分析技术案例分析3:医疗保险的欺诈发现,案例背景,商业社会,欺诈无处不在,各种欺诈现象对正常的经济、生活次序造成极大的危害。以下是一些典型的欺诈表现:,百度推广,/,莆田系医院,电信诈骗,伪造银行卡,证券业中的关联交易,企业偷逃税,电信服务中欺诈性收费,保险行业的虚假索赔,如何有效预防欺诈?,魔高一尺道高一丈,随着各种新业务的发展,欺诈总会表现出新的特征!,欺诈具有很强的行业特色。,案例背景商业社会,欺诈无处不在,各种欺诈现象对正常的经济、生,案例背景,1,医疗保险是为解决公民或劳动者因为疾病和非因公负伤,丧失劳动能力后的治疗费用及服务,给予物质帮助的一种社会保险制度。,投保人(患者)、医疗机构(医院)、医保机构(保险公司)三者间的业务逻辑。,我国的医疗保险分为社会医疗保险和商业医疗保险,:,社会医疗保险是国家通过立法的形式对社会成员强制征缴社会医疗保险基金,用以对其中患有疾病、伤残者给予基本医疗保障的一种社会经济保障制度。,商业医疗保险是投保人根据合同约定向保险公司支付 保险费,当被保险人死亡、伤残、疾病或者达到合同约定的年龄、期限时,保险公司承担给付保险金责任的保险合同。,案例背景1 医疗保险是为解决公民或劳动者因为疾病,案例背景,2,医疗保险欺诈行为是指违反医疗保险管理法规和政策,采用虚构事实、隐瞒真相以及其他方法,向医保基金管理机构骗取医保基金或医保待遇的行为。,这一行为具有两个基本特征:,一、是主观表现为直接故意,并且以非法占有医保基金或 非法获得医保待遇为目的,,二、是实施手段主要是通过虚构事实和隐瞒真相,即故意虚构未曾发生的保险事故,或者对发生的保险事故编造虚假的原因或者夸大损 失程度,以达到骗取医疗保险基金或医疗保险待遇的目的。,案例背景2 医疗保险欺诈行为是指违反医疗保险管理,案例背景,3,随着我国医疗保险事业的迅速的发展,我国医保的覆盖面不断扩大,包括了城保、镇保、个保、居保等等。保证医疗保险资金正常运作,规避潜在运营风险 的前提条件是判断出医保欺诈行为。然而,利用数学建模的方法分析医保欺诈行 为,建立医保欺诈行为的模型,可为评判医保欺诈行为提供科学的理论依据。,案例背景3 随着我国医疗保险事业的迅速的发展,我,问题提出,(,医保欺诈,的常用,手段,),1,1,、医疗保险参保患者的欺诈、违规行为。使用的方式主要有:冒用他人医疗保险证、卡就医;异地就医人员伪造或虚开医疗票据回来报销;,“,挂床,”,住院就医;要求医院开具本人不必要的诊疗项目或药品,由他人代作或代用等。,2,、医疗保险机构,(,药店,),的欺诈、违规行为。使用的方式主要有:伪造、变造以及提供虚假病历、处方、疾病诊断证明和医疗费票据等一系列作假行为,如就医资格作假、病因作假、票据作假、处方作假、医疗明细作假、医疗文书作假、住院床位作假、医疗证明作假等等,无不与医疗机构的工作人员有关。,此外还有使用医疗保险基金支付应由参保人自费的医疗费用,较为严重的是将非医保支付病种(如车祸、工伤、打架斗殴等)改为医保支付病种;向参保人提供不必要的或过度的医疗服务。,问题提出(医保欺诈的常用手段)1 1、医疗保险参,问题提出,(,医保欺诈,的常用,手段,),2,3,、医疗保险机构,(,药店,),和参保患者合谋的欺诈、违规行为。使用的方式主要有,:,虚开医保基金报销所需的入院证明、医疗发票、住院清单等医疗资料。,4,、不法分子为了获取不当利益的欺诈行为。使用的方式主要有:不法分子冒用医疗保险经办机构名义,虚构退返医疗保险金、社保卡发生故障、医保缴费 交易出现故障、医保卡欠费封锁、医保卡透支以及涉嫌购买非法药品等虚假信息,要求参保人员提供身份证号码、医保卡号码及密码等个人信息,并要求其对某个银行账户进行转款等,试图骗取参保人员信息及钱财。,问题提出(医保欺诈的常用手段)2 3、医疗保险机,数据理解与数据准备,数据集概况:,投保人信息表,医疗机构信息表,索赔信息表,数据理解与数据准备 数据集概况:,数据描述,数据分布描述,数据描述 数据分布描述,投保人的分布特征,两个保险投保人年龄分布有差异,或许可以为后面的保险条款分析、不同年龄的索赔分析有用。,投保人的分布特征 两个保险投保人年龄分布有差异,,医疗机构类别的分布特征,Physician,(内科)比例最大,达,49.2%,Physician,、,hosp-3,、,lab-fac 3,个大类有细分,其他无。,医疗机构类别的分布特征Physician(内科)比例最大,达,金额、住院时长之间的关联,住院时长、保费覆盖额、账单金额、支付金额四个变量的统计量和它们间的相关系数。,结论,1,:账单金额保费覆盖额支付金额,三者强相关,或许可以通过,3,个变量间的对比发现欺诈行为;,2,、住院时长与其他,3,变量弱相关,期望通过住院时长判断索赔合理性以发现欺诈行为可能行不通。,金额、住院时长之间的关联 住院时长、保费覆盖额、,建模思路,针对保险人(患者)、医疗机构(医院)、医保机构(保险公司)三者的业务逻辑,医保机构面临欺诈的风险。从业务的角度来看,总结以下,6,条思路:,索赔金额不合理;,医疗机构针对同一投保人、同时段的重复索赔;,在一段时间内同一投保人的异常大额索赔;,医疗机构针对一批投保人的异常大额索赔;,多家医疗机构“共享”投保人信息进行索赔;,医疗机构采用不合理的医疗处理过程以达到增加索赔金额的目的。,建模思路针对保险人(患者)、医疗机构(医院)、医保机构(保险,数据源的合并,将原始,3,张数据表的合并,获得数据挖掘的宽表。考虑到以上,6,个不同的建模思路,本项目不做统一的数据宽表,每个模型在建模的过程中根据需要自主选择变量。,数据源的合并 将原始3张数据表的合并,获得数据挖,欺诈发现的若干技术和方法,比对法(举例:银行卡;企业纳税;无需通过欺诈审核人员审核),比较法,特征类似的个体应该用相似的行为特征,同一个体在一定持续时间内应该表现出相似的行为特征,模型法,预测类模型,细分类模型,关联规则类模型,欺诈发现的若干技术和方法比对法(举例:银行卡;企业纳税;无需,模型,1,:变量对比,从业务角度来看,索赔表的变量间会存在一定的逻辑关系,可以通过某些变量的横向、纵向的对比发现索赔中疑似欺诈。,支付金额账单金额,同一时段内同一病人反复索赔的次数,某一医疗机构的月度索赔支付笔数或金额大幅增加,。,模型1:变量对比 从业务角度来看,索赔表的变量间,模型,1,:变量对比,模型1:变量对比,模型,2,:,Benford,定律,统计一下世界上,237,个国家的人口数量,你觉得其中以,1,开头的数会占多大比例,而以,9,开头的数又占多大比例呢?,如果你的回答是都为,1/9,,恭喜你!你是正常人!,但是事实却不是如此:以,1,开头的数惊人的占到了,27%,,而以,9,开头的数却只占,5%,。右图可以很形象的展示出在各国人口数量问题上,以各个数字开头的数占了多大的比例。,为什么会相差这么大呢?这正是神秘的本福特定律在起作用。,模型2:Benford定律 统计一下世界上237个国家的人,Benford,定律,本福特定律,也称为本福德法则,说明一堆从实际生活得出的数据中,以,1,为首位数字的数的出现机率约为总数的三成,接近期望值,1/9,的,3,倍,推广来说,越大的数字,以它为首几位的数出现的机率就越低;精确地数学表述为:在,b,进位制中,以数,n,起头的数出现的机率为,logb(n+1)logb(n),。,在十进制中,首位数字出现的概率为:,d,1,2,3,4,5,6,7,8,9,p,30.1%,17.6%,12.5%,9.7%,7.9%,6.7%,5.8%,5.1%,4.6%,Benford定律 本福特定律,也称为本福德法,Benford,定律,这个定律的发现,据说是因为本福特在翻对数表的时候发现前面几页被翻得很黑很破烂,越往后越颜色越浅。由此他想到会不会是,1,开头的数字就是比其他数多,他统计了一下发现果然如此。其实这个对数表的事情真假难辨了,就像是牛顿说自己是被苹果砸到了头才发现的万有引力定律一样,只要最后的定律有用就可以了。,Benford定律 这个定律的发现,据说是因为本,Benford,定律,说明一下本福特定律的适用范围这个定律是一个非常神奇的定律,它的适用范围异常的广泛,几乎所有日常生活中没有人为规则的统计数据都满足这个定律。,比如说世界各国人口数量、各国国土面积、账本、物理化学常数、数学物理课本后面的答案、放射性半衰期等等数据居然都符合本福特定律。,值得一提的是,科学家还发现,统计物理的三个重要分布,,Boltzmann-Gibbs,分布,,Bose-Einstein,分布,,Fermi-Dirac,分布,也基本上满足,Benford,定律!,Benford定律 说明一下本福特定律的适用范,Benford,定律毕竟还是有适用范围的,第一,这些数据必须跨度足够大,必须横跨好几个数量级才能产生这个结果。,第二,有人为规则的数据就不满足次定律,比如说手机号码、身份证号、发票编号等数据,明显不满足这种对数分布律。,也就是说,本福特定律正是没有任何限制才显露出来的定律,越是对数据的产生有人为限制,越是不满足该定律。,第三,数据不能经过人为修饰,随便人为修改的数据一般就不满足本福特定律了。,比如当年著名的安然公司造假案,他们的账本就没有满足本福特定律,因此这个神秘的定律甚至可以用来判别是否财务造假。,Benford定律毕竟还是有适用范围的 第一,,Benford,定律的理解,那么到底该如何理解这个神秘的定律呢?为何自然产生的数据会满足这么奇特的一个定律,而不是均匀分布呢?,本福特定律产生的根源,就在于指数增长。这幅图可以直观的显示,如果一个变量随时间成指数增长的话,那么这个变量开头的数字随着时间的变化就应该是如下图:,Benford定律的理解 那么到底该如何理解这个,Benford,定律的理解,显然,在某时刻你得到它以,1,开头的概率要大于,9,开头。而这是只取一个值的情况,如果是取大量的数据的话,在某时刻你观察到他以,1,开头的数据数量就大于以,9,开头的数量了。,而指数增长的形式在自然界是十分普遍的,只要一个变量的增长率和他的大小成正比,结果就会是指数增长。,比如说人类科技发展的速度大致和已有的科技成果成正比,所以人类的科技发展就是个指数增长;人口增长率会和已存在人口数成正比,因此没有资源限制的人口增长也是指数增长。指数增长是自然中极为普遍的一种变化规律,而这种变化规律可以直接导致本福特定律。,Benford定律的理解显然,在某时刻你得到它以1开头的概率,另外一种直观的解释,从数数目来说,顺序从,1,开始数,,1,2,3,9,,从这点终结的话,所有数起首的机会似乎相同,但,9,之后的两位数,10,至,19,,以,1,起首的数又大大抛离了其他数了。而下一堆,9,起首的数出现之前,必然会经过一堆以,2,3,4,8,起首的数。,如果这样数法有个终结点,以,1,起首的数的出现率一般都比,9,大。就以一个城市的所有门牌号为例,有的街道门牌号可能在,100,多就结束了,有的在,500,多结束,有的在,900,多结束。注意到,500,多结束那条街一定包含了,1,、,10+,和,100199,这些,1,开头的门牌号,而不包含,9,开头的百位数,只包含,9,及,90+,的以,9,开头的数,这样一来明显以,1,打头的就多于,9,打头的了。然后对整个城市的所有街道做一个综合,最终就满足本福特定律了。,另外一种直观的解释从数数目来说,顺序从1开始数,1,2,3,另外一种直观的解释,另外,值得一提的是,本福特定律满足尺度不不变性,即如果我们换一