单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,第四章 分层抽样,4.1 估值法(一),4.2 估值法(二),组合比估计和回归估计,4.3 样本量的分配,4.4 与简单随机抽样之比较,4.5 如何适当分层,4.6 后分层估计和定额抽样,第四章 分层抽样4.1 估值法(一)4.2 估值法(二),1,分层抽样的提法,估值法(一),4.1 估值法(一),分层抽样的提法估值法(一)4.1 估值法(一),2,分层抽样的提法,分层抽样的步骤,分层:,抽样:,从每层抽取一个样本构成总的样本,采用分层抽样的理由,可同时对子总体进行参数估计,便于组织实施,可根据各层特点采用不同抽样方式,可使样本在总体中分布均匀,从而具有更好代表性,适当分层可提高参数估计的精度,(Stratified sampling),分层抽样的提法分层抽样的步骤分层:抽样:从每层抽取一,3,分层抽样的提法,分层抽样的问题,如何分层,如何确定各层样本量,如何估值,记号,分层抽样的提法分层抽样的问题如何分层 如何确定各层样本,4,估 值 法(一),估 值 法(一),5,估 值 法(一),估 值 法(一),6,估 值 法(一),估 值 法(一),7,估 值 法(一),例1 调查某地区居民的奶制品消费支出,以居民户为抽样单元.根据经济收入水平将居民划分为4层,每层抽取样本量为10的简单随机样本,调查数据如下表,试估计该地区居民奶制品的月消费总支出及其置信度为95%的置信区间.,估 值 法(一)例1 调查某地区居民的奶制品消费支出,以居民,8,例,2,对某地区的居民拥有家庭电脑的情况进行调查,以居民为抽样单位,根据收入水平将居民户划分为4层,每层按简单随机抽样抽取10户。调查数据如表。,估计该地区居民拥有家庭电脑的比例及抽样标准误。,估 值 法(一),例2 对某地区的居民拥有家庭电脑的情况进行调查,以居民为抽样,9,例,3,已知某公司一般职员及高级管理人员刚进入公司时的工资总额分别为,5523965,元、,2541660,元,欲通过抽样调查估计当前该公司职员的工资总额,Y,。抽样按照一般职员与高管层进行分层随机抽取。一般职员共,390,人,抽取,15,人;高管层共,84,人,抽取,10,名。调查数据如表。,给出,Y,的分别比估计量,估计其精度,估 值 法(一),例3 已知某公司一般职员及高级管理人员刚进入公司时的工资总额,10,练习1 为调查某地区住户的平均家庭成员数,将该地去分为城市和乡村2层,每层按照简单随机抽样抽取10户。调查数据如表。,估计该地区住户的平均家庭成员数及其95%的置信区间。,估 值 法(一),练习1 为调查某地区住户的平均家庭成员数,将该地去分为城市和,11,组合比估计,4.2 组合比估计和回归估计,组合回归估计,组合比估计4.2 组合比估计和回归估计组合回归估计,12,组合比估计,有辅助变量,X,用于估值分析的,先分别对各层进行简单估计,再用比估值法获得目标指标量的估计,组合比估计的含义,(Ratio combined),组合比估计 有辅助变量X用于估值分析的,先分别对各,13,组合比估计,定理4.2.1 对分层抽样的组合比估计,有,估值定理,组合比估计定理4.2.1 对分层抽样的组合比估计,有估值定理,14,组合比估计,例3续:,给出,Y,的组合比估计量,估计其精度,与分别比估计进行比较,组合比估计例3续:给出Y的组合比估计量,估计其精度,与分别比,15,组合比估计,分别比估计与组合比估计的比较,组合比估计分别比估计与组合比估计的比较,16,分别回归估计,分别回归估计,分别回归估计分别回归估计,17,组合回归估计,组合回归估计,组合回归估计组合回归估计,18,组合回归估计,组合回归估计,19,组合回归估计,分别回归估计与组合回归估计的比较,组合回归估计分别回归估计与组合回归估计的比较,20,比估计与回归估计小结,当Y与X高度相关时,采用比估计和回归估计都是有效的。在选择估计方法时,有以下原则:,(1)由于分别估计(分别比或者分别回归估计)要求各层的样本量都比较大,所以当某些层的样本量不够大时,建议采用联合估计。,(2)当回归系数需要由样本进行估计时,回归估计是有偏的,尤其当样本量较小的时候,采取联合比估计更好。,(3)如果各层的样本量都比较大,每层的比估计或回归估计有效,此时用分别比估计,方差更小。,(4)如果各层的样本量不大,各层的Ri差异较小,采用联合估计。,(5)如果各层的Ri之间的差别不是太大,而且并不是每层的样本量都相当大,采用联合估计。,(6)如果各层的回归系数都接近于1,则可采用差估计。,比估计与回归估计小结当Y与X高度相关时,采用比估计和回归估计,21,例,3(续),已知某公司一般职员及高级管理人员刚进入公司时的工资总额分别为,5523965,元、,2541660,元,欲通过抽样调查估计当前该公司职员的工资总额,Y,。抽样按照一般职员与高管层进行分层随机抽取。一般职员共,390,人,抽取,15,人;高管层共,84,人,抽取,10,名。调查数据如表。,给出,Y,的分别回归估计量、联合回归估计以及差估计,同时估计其精度。,估 值 法(一),例3(续)已知某公司一般职员及高级管理人员刚进入公司时的工,22,等额样本量,按比例分配,4.3 样本量的分配,奈曼最优分配,考虑费用的最优分配,等额样本量按比例分配4.3 样本量的分配奈曼最优分配考虑费用,23,等额样本量,各层的样本量相等,特点:实施方便,便于管理,例1 对各乡收入数据,采用分层抽样,各层采用简单随机抽样,计划抽取,8,个乡,按照下列样本量分配方式,确定各层的样本量,(1)等额分配,(2)按比例分配,(3),Neyman,最优分配,等额样本量各层的样本量相等特点:实施方便,便于管理例1 对各,24,按比例分配,若总体总值或均值的一个无偏估计量可以表示成样本总值或均值的常数倍,这种估计量称为自加权估计量,(proportional allocation),适用于,N,i,已知而其他信息很少的情形,按比例分配若总体总值或均值的一个无偏估计量可以表示成样本总值,25,奈曼(,Neyman,)最优分配,奈曼(Neyman)最优分配,26,考虑费用的最优分配,考虑费用的最优分配,27,例 某市有甲、乙两个地区,现要进行家庭收入的调查。令n=500,已知甲地区共有20000户居民,乙地区共有50000户居民;甲地区和乙地区居民收入标准差估计分别为s1=2500,s2=2000;同时对甲地和乙地每户的平均抽样费用之比为2:3,请分别计算出甲地和乙地进行比例分配、一般最优分配(考虑费用因素)以及奈曼最优分配的样本量。,例 某市有甲、乙两个地区,现要进行家庭收入的调查。令n=50,28,分层抽样的精度,层权误差,4.4 与简单随机抽样之比较,分层抽样的精度层权误差4.4 与简单随机抽样之比较,29,分层抽样的精度,=,+,分层抽样的精度=+,30,层 权 误 差,层 权 误 差,31,例 题 与 练 习,3.0,11.2,10,13,10,9,12,13,3,3.9,10.7,12,12,8,9,13,10,2,2.0,11.0,13,11,10,12,9,11,1,6,5,4,3,2,1,j,K,例 题 与 练 习3.011.21013109121333.,32,分层的思路,D-H方法,4.5 如何适当分层,分层的思路D-H方法4.5 如何适当分层,33,分层的思路,最小.若采用奈曼最优分配,忽略抽样比,则使,最小.,分层的思路最小.若采用奈曼最优分配,忽略抽样比,则使最小.,34,D-H,方 法,Y,的概率密度函数,V,的近似表达式,D-H 方 法Y的概率密度函数V的近似表达式,35,D-H,方 法,适当的分层界限,为一常数,达到最小值.,D-H 方 法适当的分层界限为一常数,达到最小值.,36,D-H,方 法,例1 以某地区2001年企业出口数据中截取的904个企业构成的总体为例,说明分层的操作程序.,练习 表列出了美国13435家银行组成的总体内银行贷款中工业贷款占的百分数的频数分布.将13435家银行分为5层.,分层时一般只能调查与Y相关的辅助变量,很少用,到Y本身,因而分层界限值无需十分精细,用辅助变量分层时,辅助变量引起的误差会使分层,过细失去意义,经验表明使用五或六个层是适宜的,D-H 方 法例1 以某地区2001年企业出口数据中截取的,37,后分层估计,定额抽样,4.6 后分层估计和定额抽样,后分层估计定额抽样4.6 后分层估计和定额抽样,38,后分层估计,后分层估计的背景,要调查某地区居民对某一问题的意向,以年龄为辅助变量分层,要调查某校学生每月的话费支出,以家庭收入水平为辅助变量分层,现实有些情况下,缺少层内抽样框,无法实施分层抽样,此时可采用后分层估计,后分层估计的含义,对总体实施不分层简单随机抽样,在调查中明确每个样本单元属于哪个层,将全部单元在调查后按分层变量分入各层,按分层抽样估值,后分层估计后分层估计的背景要调查某地区居民对某一问题的意向,,39,后分层估计,估值定理,后分层估计的精度低于按比例分层估计的精度,但当,n,很大时,两者精度差别不大.,后分层估计估值定理后分层估计的精度低于按比例分层估计的精度,40,后分层估计,例 某地市对载货汽车进行调查,调查目标量为当月,全地市发生的总运量,Y,.对总共19730辆货车抽取一个178辆车的样本,由于单车运量与车核定标识吨位(,X,)密切相关,为提高精度,对样本采用后分层,相关数据如表.估计,Y,及该估计的精度.,采用后分层应注意“事后层”数目不宜多.,后分层估计例 某地市对载货汽车进行调查,调查目标量为当月采,41,定 额 抽 样,定额抽样的含义,适用于有辅助变量用于分层而按此辅助变量分层抽样不现实的情况,按分层比例抽取样本量:抽样过程中简单随机抽样与典型抽样结合,在调查后阶段,调查人员注意控制样本,使各层样本量到达定额,多用于民意测验和市场调查,由于带有典型抽样色彩,无法估计其精度,定 额 抽 样定额抽样的含义适用于有辅助变量用于分层而按此辅,42,实验名称:分层抽样实例,实验题:估计某中学学生某次期末考试的平均分,以期中考试成绩为辅助变量将该校学生分为5个层,抽取100个样本,采用后分层估计估值,并给出该估计均方偏差的估计值。,实验名称:分层抽样实例实验题:估计某中学学生某次期末考试的平,43,优质精神,全员参与,持续改进,持之以恒。,11月-24,11月-24,Tuesday,November 19,2024,扳紧一颗螺钉,消灭隐患一批。,00:54:43,00:54:43,00:54,11/19/2024 12:54:43 AM,关爱生命,安全发展。,11月-24,00:54:43,00:54,Nov-24,19-Nov-24,以管理保质量、以质量保进度、以进度求效益。,00:54:43,00:54:43,00:54,Tuesday,November 19,2024,塑企业形象,创优质名牌。,11月-24,11月-24,00:54:43,00:54:43,November 19,2024,安全生产,生产蒸蒸日上,文明建设,建设欣欣向荣。,2024年11月19日,12:54 上午,11月-24,11月-24,消防安全是幸福的保障,治理隐患保障消防安全。,19 十一月 2024,12:54:43 上午,00:54:43,11月-24,坚持一流管理,生产一流产品,提供一泫服务,创建一流企业。,十一月 24,12:54 上午,11月-24,00:54,November 19,2024,综合治理,保障平安。,2024/11/19 0:54:43,00:54:43,19 November 2024,产品若要无缺点,全面品管不可免。,12:54:43 上午,12:54 上午,00:54:43,11月-24,用户是上帝,下道貌岸然工序就是用户。,11月-24,11月-24,00: