简介:极端值亦称离群值或边远值,即在观测值中远远偏离数据主体部分的个别值,这些值不能服从假定的概率分布。如果将极端值和其它数据不加区别地等同对待,会使数据的离散程度加大,计算出的数字特征不能反映主体数据的特征。对极端值进行识别并加以处理,是探索性数据分析的一个重要问题。经过适当处理后的数据,具有较强的耐抗性,即对局部数据的不良行为具有不敏感性。在统计分析中,识别极端值的方法有以下几种:(一)四分展布法四分展布法是一种经验法,首先计算中位数和四分位数:设有数据X1,X2…Xn,将其从小到大排列,记为X(t),X(2)…X(n);当n为奇数时,n=2k+1,中位数=X(k),中位数位次为k+1;当n为偶
简介:一、问题的提出统计中研究现象总体数量特征常用一般水平反映其总体规模,这个一般水平指标代表性大小则是通过次数分配对称和分配形态是否适中来进行分析。次数分布偏高对称分布的状态称为偏态,测定偏态通常有两种方法:(一)皮尔逊偏态测定法若次数分布果呈钟形分布且微略偏态,则有式中SK代表偏态系数,X代表算术平均数,M0代表众数,Me代表中位数,代表均方差。(二)动差法计算公式用这两种方法测定偏态得到的结论是否一致?我们通过一个例子用上述两种方法分别计算,看看会出现何种情况和问题。某年级《统计学》考试成绩分组资料如表所示(表1)对于同一个次数分布曲线,无论用何种方法测定其偏态,尽管可能存在数值上的差异