,Click to edit Master title style,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,*,医学统计学,(,Medical Statistics,),第一章 绪论,Charpter1,:,Introduction,第一节 统计学与医学统计学方法,统计学,是,收集,、,分析,、,解释,与,呈现,数据资料的一门科学。,Statistics,:,“,a science dealing with the,collection,analysis,interpretation,and,presentation,of masses of numerical data”,-Webster,国际大辞典,收集数据,:,实验设计、调查设计,(8,9),分析数据,:,统计学描述,(2),、统计学推断,(37;10),解释数据,:,根据专业等解释统计结果,(,穿插各个章节,),呈现结果,:,向杂志社、上级部门发表结果,(12),统计工作的,基本,步骤,1.,统计设计,:包括调查、实验设计。,2.,收集资料,:取得准确可靠的原始资料,3.,整理资料,:对资料进行清理、改错,数量化,4.,分析资料,:统计描述、统计推断,医学统计学,用统计学原理和方法研究医学问题,第二节 数据类型,1.,计量资料,2.,计数资料,3.,等级资料,4.,三类资料间关系,住院号,年龄,身高,体重,住院天数,职业,文化程度,分娩方式,妊娠结局,2025655,27,165,71.5,5,无,中学,顺产,足月,2025653,22,160,74.0,5,无,小学,助产,足月,2025830,25,158,68.0,6,管理员,大学,顺产,足月,2022543,23,161,69.0,5,无,中学,剖宫产,足月,2022466,25,159,62.0,11,商业,中学,剖宫产,足月,2024535,27,157,68.0,2,无,小学,顺产,早产,2025834,20,158,66.0,4,无,中学,助产,早产,2019464,24,158,70.5,3,无,中学,助产,足月,2025783,29,154,57.0,7,干部,中学,剖宫产,足月,观察单位,observations,个体,individuals,变量,variables,Quantitative data,计量资料,Qualitative data,计数资料,Units,;,elements,1.,计量资料,用仪器、工具等,测量,(measure),方法获得的数据,即为,计量资料,measurment data,。也叫定量数据,Quantitative data,特点:,有计量单位,,如患者的身高(,cm,)、体重(,kg,)、血压(,mmHg,)、脉搏(次,/,分)、红细胞计数(,10,/L,),2.,计数资料,按某种属性分类,然后清点每类的数据,称,计数资料,(,count data,)或,enumeration data,。,也叫,定性数据,Qualitative data,特点:,无固有计量单位,,如肤色(黑、白)、血型(,ABO,)、职业(工农兵)、性别(男女),3.,等级资料,Rank data,半定性或半定量的观察结果。有大小顺序,所以也叫,有序分类资料,(,ordinal category data,)。,癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。,尿蛋白:,+,+,及以上,实例数据,1,实例数据,2,4.,三类资料间关系,例:一组,20,40,岁成年人的血压,以,12kPa,为界分为正常与异常两组,统计每组例数,8,低血压,8,正常血压,12,轻度高血压,15,中度高血压,17,重度高血压,计量资料,等级资料,计数资料,第三节 统计学基本概念,1.,随机变量及其分类,2.,同质与变异,3.,总体与样本,4.,参数与统计量,5.,误差,6.,概率,1.,随机变量,(random variable),简称,变量,(,variable,),统计上习惯用大写拉丁字母表示,如,X,、,Y,、,Z,、,。,变量值,习惯,用小写拉丁字母表示,如性别,x,1,1,(男)、,x,2,1,(男)、,x,3,0,(女),、,。,编号(,ID,),性别(,X,),体重 (,kg,)(,Y,),疗效(,Z,),张,1,1,66,0,李,2,1,78,1,王,3,0,57,2,随机变量的分类,离散型变量,(,discrete variable,),相当于计数资料,连续性变量,(,continuous variable,),相当于计量资料,有序变量,(,ordinal variable,),相当于等级资料,2.,同质与变异,homogeneity,and,variation,同质:指事物的性质、影响条件或背景相同或非常相近。,变异,:指同质的个体之间的差异。,同质与变异的例子,例,1,调查,2003,年西安市,7,岁男童的身高和体重,同质,:,2003,年、西安市、,7,岁男童,变异,:身高和体重各不相同,例,2,研究某降压药的疗效,同质,:高血压患者、用某药治疗,变异,:疗效各不相同,表,1-1 120,名正常成年男子红细胞计数值,(10,12,/L),5.12,5.13,4.58,4.31,4.09,4.41,4.33,4.58,4.24,5.45,4.32,4.84,4.91,5.14,5.25,4.89,4.79,4.90,5.09,4.64,5.14,5.46,4.66,4.20,4.21,3.73,5.17,5.79,5.46,4.49,4.85,5.28,4.78,4.32,4.94,5.21,4.68,5.09,4.68,4.91,5.13,5.26,3.84,4.17,4.56,3.52,6.00,4.05,4.92,4.87,4.28,4.46,5.03,5.69,5.25,4.56,5.53,4.58,4.86,4.97,4.70,4.28,4.37,5.33,4.78,4.75,5.39,5.27,4.89,6.18,4.13,5.22,4.44,4.13,4.43,4.02,5.86,5.12,5.36,3.86,4.68,5.48,5.31,4.53,4.83,4.11,3.29,4.18,4.13,4.06,3.42,4.68,4.52,5.19,3.70,5.51,4.64,4.92,4.93,4.90,3.92,5.04,4.70,4.54,3.95,4.40,4.31,3.77,4.16,4.58,5.35,3.71,5.27,4.52,5.21,4.37,4.80,4.75,3.86,5.69,最大值,=6.18,最小值,=3.29,极差,=2.89,算术均数,=,4.72,,标准差,=0.57,3.,总体与样本,population and sample,总体,:根据研究目的确定的,同质,研究对象的,全体,(集合)。分有限总体与无限总体,样本,:从总体中随机抽取的部分观察单位,随机抽样,random,sampling,为了保证样本的,可靠性,和,代表性,,需要采用随机的抽样方法(在总体中每个个体具有,相同的机会,被抽到)。,4.,参数与统计量,parameter and statistic,参数,:,总体,的统计指标,如总体均数、标准差,采用希腊字母分别记为,、,。,固定的常数,总体,样本,抽取部分观察单位,统计量,参 数,推断,inference,统计量,:,样本,的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。,参数附近波动的随机变量,。,5.,误差,error,误差,:实际,观察值,与客观,真实值,之差,(,1,)系统误差,(,2,)随机误差,(,1,)系统误差,systematic error,在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为,偏倚,(,bias,)。,特点:观察值有,系统性,、,方向性,、,周期性,的偏离真值。,可以通过严格的,实验设计,和,技术措施,消除,。,(,2,),随机误差random error,排除上述误差后尚存的误差,受多种无法控制的因素的影响。,特点:大小方向不一的随机变化。,随机测量误差,(,random measurement error,),提高操作者熟练程度可以减少这种误差,随机抽样误差,(,random,sampling error,):由抽样造成的样本统计量和总体参数间的差异。,不可避免,但有一定的分布规律,可估计。,6.,概率,probability,确定性现象,:在一定条件下,,一定,会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫,必然事件,;肯定不发生某种结果的叫,不可能事件,。,随机现象,:在同样条件下,可能,会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为,随机事件,。随机事件的特征:,随机性,;,规律性,:每次发生的可能性的大小是确定的。,概率:,随机事件发生的可能性大小,用大写的,P,表示;取值,0,,,1,。,必然事件,P,=1,不可能事件,P,=0,随机事件,0,P,1,P,0.05,(,5,)或,P,0.01,(,1,),称为,小概率事件,(,习惯,),,统计学上认为不大可能发生。,小概率事件,样本的实际发生率称为,频率,。设在相同条件下,独立重复进行,n,次试验,事件,A,出现,f,次,则事件,A,出现的频率为,f,/,n,。,频率与概率间的关系:,样本频率总是围绕概率上下波动,样本含量,n,越大,波动幅度越小,频率越接近概率。,频率,frequency,第四节 统计学发展及有关问题,20,世纪,20,年代,,英国统计学家,R.A.,Fisher,爵士,(,1890-1962,)创立了,实验设计方法和统计分析,技术,奠定现代生物统计的基础。,1948,年,,英国发表了评价链霉素治疗肺结核疗效的,随机对照的临床试验,报告,第一次采用生物统计方法进行临床干预试验。,1948,年,,,郭祖超,教授(,19121999,)编著的,医学与生物统计方法,,是我国第一部医学统计方法的教科书。,1.,实例,遗传学家,F.Galton,爵士(,1822-1911,)对上千家庭父亲身高和儿子身高的观察发现遗传的“回归”现象,1960,年英国医生,Doll,,,Hill,等发现吸烟与肺癌有关,2.,医学论文中的统计学问题,60,年代到,80,年代,国外医学杂志调查结果:有统计错误的论文,20%72%,。,1996,年对,4586,篇论文统计(中华医学会系列杂志占,6.9%,),数据分析方法误用达,55.7%,。,3.,伪造统计数据违反科学道德,1976,年,New Science,杂志关于科研舞弊行为的调查,(,1,),74%,的调查表反映有不正当修改数据的情况,(,2,),17%,拼凑实验结果,(,3,),7%,凭空捏造数据,(,4,),2%,故意曲解结果,Fancy,statistical methods cannot rescue,garbage,data,Fancy statistical methods can help you gain,insight into your data,over and above what seems obvious on its face,You should always worry about whether the sampled results are representative of the population,and whether your,sample allows you to make inferences about the population,.,A Warn