简介:极端值亦称离群值或边远值,即在观测值中远远偏离数据主体部分的个别值,这些值不能服从假定的概率分布。如果将极端值和其它数据不加区别地等同对待,会使数据的离散程度加大,计算出的数字特征不能反映主体数据的特征。对极端值进行识别并加以处理,是探索性数据分析的一个重要问题。经过适当处理后的数据,具有较强的耐抗性,即对局部数据的不良行为具有不敏感性。在统计分析中,识别极端值的方法有以下几种:(一)四分展布法四分展布法是一种经验法,首先计算中位数和四分位数:设有数据X1,X2…Xn,将其从小到大排列,记为X(t),X(2)…X(n);当n为奇数时,n=2k+1,中位数=X(k),中位数位次为k+1;当n为偶
简介:当今民事登记系统覆盖评估领域主流方法是独立双系统估计量,其存在利用辅助信息量有限而难以提供精度高的净误差率的不足,因此,提出用三系统估计量替代独立双系统估计量的研究目标。为实现目标,采用文献解读、抽样推断和现场调研的研究方法。研究发现,中国迄今尚未开展户籍登记系统覆盖评估研究,而开展民事登记系统覆盖评估的西方国家在应用独立双系统估计量时也存在未对总体人口等概率分层等诸多缺陷。在西方学者研究的基础上,首次提出三个系统对总体抽样登记的、人口移动的三系统估计量,为户籍登记系统覆盖评估提供前沿理论工具。有助于中国国家统计局和其他部门从户籍登记系统中获得高精度的人口数据,也为中国以后实行成本低、效率高的行政记录式人口普查制度创造条件。