佟希君黑龙江省肇东市第一中学151100
中图分类号:G635.1文献标识码:A文章编号:ISSN1001-2982(2019)04-079-02
如何判断回归模型的拟合效果好坏是回归分析的重要内容,在回归分析中通常用残差分析来判断回归模型的拟合效果
一:残差分析的方法
1.残差图
(1)残差:对于样本点,它们的随机误差为,,其估计值,,称为相应于点的残差,即=真实值—预报值
(2)残差图:纵坐标为残差,横坐标可以选为样本编号或其他相关数据。
残差点比较均匀地落在水平的带状区域中,说明选用的模型拟合效果好,带状区域宽度越窄,说明拟合精度越高,回归方程的精度越高。
(3)残差平方和:越小拟合效果越好
2.相关系数:
(1)
(2)时线性相关性越强,越弱
(3)时认为两个变量有很强的相关关系
3相关指数
(1)
(2)越大,说明残差平方和越小,模型拟合效果越好,,模型拟合效果差
(3)与相关系数作用相同
(4)实际应用中,应选用大的回归模型
二.典例分析
例.某运动员训练次数与运动成绩之间的数据关系如下:
次数x3033353739444650
成绩y3034373942464851
试预测该运动员训练47次以及55次的成绩。
解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系。
图1
(2)列表计算:
次数成绩
3030900900900
3334108911561122
3537122513691295
3739136915211443
3942152117641638
4446193621162024
4648211623042208
5051250026012550
由上表可求得,,
,所以
所以回归直线方程为
(3)计算相关系数
将上述数据代入得,查表可知,而,故y与x之间存在显著的相关关系。
(4)残差分析:
作残差图如图,由图知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适。
计算残差的方差得,说明预报的精度较高。
(5)计算相关指数
计算相关指数。说明该运动员的成绩的差异有98.55%是由训练次数引起的。
(6)作出预报
由上述分析可知,我们可用回归方程,作为该运动员的成绩的预报值。
将和分别代入该方程可得和,
故预测该运动员训练47次和55次的成绩分别是49和57.
总结:一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量:
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是存在线性关系等):
(3)由经验确定回归方程的类型(如我们观察数据呈线性关系,则选用线性回归方程):
(4)按一定规则估计回归方程中的参数(如最小二乘法):
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
变式:一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下:
零件数个102030405060708090100
加工时间626875818995102108115122
(1)与是否具有线性相关关系?
(2)如果与具有线性相关关系,求回归直线方程;
(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?
解析:这是一个回归分析问题,应先判断与是否具有线性相关关系,只有线性相关,才可以求解后面的问题,否则就使得求回归直线方程没有意义,要做相关性检验,应先利用
求出样本相关系数,利用当时,两个变量正相关,当时,两个变量负相关,的绝对值越接近于1,表明两个变量的线性相关性越强,的绝对值越接近于0,表明两个变量之间几乎不存在线性相关性,通常当大于0.75时,认为两个变量有很强的线性相关性,因而求回归直线方程才有意义。
解:(1)列出下表
图2
12345678910
102030405060708090100
626875818995102108115122
62013602250324044505700714086401035012200
因此由于,因此与之间具有很强的线性相关性。