如何用残差分析的方法判断回归模型的拟合效果

(整期优先)网络出版时间:2019-02-12
/ 1

如何用残差分析的方法判断回归模型的拟合效果

佟希君

佟希君黑龙江省肇东市第一中学151100

中图分类号:G635.1文献标识码:A文章编号:ISSN1001-2982(2019)04-079-02

如何判断回归模型的拟合效果好坏是回归分析的重要内容,在回归分析中通常用残差分析来判断回归模型的拟合效果

一:残差分析的方法

1.残差图

(1)残差:对于样本点,它们的随机误差为,,其估计值,,称为相应于点的残差,即=真实值—预报值

(2)残差图:纵坐标为残差,横坐标可以选为样本编号或其他相关数据。

残差点比较均匀地落在水平的带状区域中,说明选用的模型拟合效果好,带状区域宽度越窄,说明拟合精度越高,回归方程的精度越高。

(3)残差平方和:越小拟合效果越好

2.相关系数:

(1)

(2)时线性相关性越强,越弱

(3)时认为两个变量有很强的相关关系

3相关指数

(1)

(2)越大,说明残差平方和越小,模型拟合效果越好,,模型拟合效果差

(3)与相关系数作用相同

(4)实际应用中,应选用大的回归模型

二.典例分析

例.某运动员训练次数与运动成绩之间的数据关系如下:

次数x3033353739444650

成绩y3034373942464851

试预测该运动员训练47次以及55次的成绩。

解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系。

图1

(2)列表计算:

次数成绩

3030900900900

3334108911561122

3537122513691295

3739136915211443

3942152117641638

4446193621162024

4648211623042208

5051250026012550

由上表可求得,,

,所以

所以回归直线方程为

(3)计算相关系数

将上述数据代入得,查表可知,而,故y与x之间存在显著的相关关系。

(4)残差分析:

作残差图如图,由图知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。

计算残差的方差得,说明预报的精度较高。

(5)计算相关指数

计算相关指数。说明该运动员的成绩的差异有98.55%是由训练次数引起的。

(6)作出预报

由上述分析可知,我们可用回归方程,作为该运动员的成绩的预报值。

将和分别代入该方程可得和,

故预测该运动员训练47次和55次的成绩分别是49和57.

总结:一般地,建立回归模型的基本步骤为:

(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量:

(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是存在线性关系等):

(3)由经验确定回归方程的类型(如我们观察数据呈线性关系,则选用线性回归方程):

(4)按一定规则估计回归方程中的参数(如最小二乘法):

(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。

变式:一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:

零件数个102030405060708090100

加工时间626875818995102108115122

(1)与是否具有线性相关关系?

(2)如果与具有线性相关关系,求回归直线方程;

(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?

解析:这是一个回归分析问题,应先判断与是否具有线性相关关系,只有线性相关,才可以求解后面的问题,否则就使得求回归直线方程没有意义,要做相关性检验,应先利用

求出样本相关系数,利用当时,两个变量正相关,当时,两个变量负相关,的绝对值越接近于1,表明两个变量的线性相关性越强,的绝对值越接近于0,表明两个变量之间几乎不存在线性相关性,通常当大于0.75时,认为两个变量有很强的线性相关性,因而求回归直线方程才有意义。

解:(1)列出下表

图2

12345678910

102030405060708090100

626875818995102108115122

62013602250324044505700714086401035012200

因此由于,因此与之间具有很强的线性相关性。