R语言中 成分残差图的结果怎么看

Python019

R语言中 成分残差图的结果怎么看,第1张

那个最佳答案说的跟这个问题没有关系。我在学习r语言的线性回归的时候遇到了这个问题。这个图是用来判断你对回归模型的线性假设是否成立的。看法如下:

按照书上所说就是:“

若图形存在非线性,则说明你可能对预测变量的函数形式建模不够充分,

那么就需要添加一些曲线成分,比如多项式项,或对一个或多个变量进行变换(如用log(X)代

替X),或用其他回归变体形式而不是线性回归。

按照别人的说法就是:看图中的两条线,红色虚线和绿色实线是否接近。接近了就说明模型是线性的(这是在RStudio中做出的成分残差图)。

一、图示法 图示法是一种很直观的检验方法,它是通过对残差散点图的分析来判断随机误差项的序列相关性。把给定的回归模型直接用普通最小二乘法估计参数,求出残差项,并把作为随机误差项的估计值,画出的散点图。由于把残差项作为随机误差项的估计值,随机误差项的性质也应能在残差中反映出来。

(一)按时间顺序绘制残差图 如果残差,,随着时间的变化而呈现有规律的变动,则存在相关性,进而可以推断随机误差项之间存在序列相关性。如果随着时间的变化,并不频繁地改变符号,而是取几个正值后又连续地取几个负值(或者,与之相反,几个连续的负值后面紧跟着几个正值),则表明随机误差项存在正的序列相关,(见图6-1);如果随着时间的变化,不断地改变符号(见图6-2),那么随机误差项之间存在负的序列相关。 图6-2 负序列相关

(二)绘制,的散点图 计算和,以为纵轴,为横轴,绘制(,),的散点图。如果大部分点落在第Ⅰ,Ⅲ象限,表明随机误差项存在正的序列相关(见图6-3);如果大部分点落在第Ⅱ,Ⅳ象限,表明随机误差项存在负的序列相关(见图6-4)。 图6-3 正序列相关 图6-4 负序列相关二、杜宾——瓦特森(D-W)检验 1、适用条件杜宾——瓦特森检验,简称D—W检验,是J.Durbin(杜宾)和G.S.Watson(瓦特森)于1951年提出的一种适用于小样本的检验序列相关性的方法。D-W检验是目前检验序列相关性最为常用的方法,但它只适用于检验随机误差项具有一阶自回归形式的序列相关问题。在使用该方法时前,必须注意该方法的适用条件。回归模型含有截距项,即截距项不为零;解释变量是非随机的;随机误差项为一阶自相关,即;回归模型中不应含有滞后内生变量作为解释变量,即不应出现下列形式: 其中,为的滞后一期变量;无缺失数据。当上述条件得到满足时,我们可以利用D-W方法检验序列相关问题。2、具体过程(1)提出假设,即不存在序列相关,,即存在序列相关性(2)定义D-W检验统计量为了检验上述假设,构造D-W检验统计量首先要求出回归估计式的残差,定义D-W统计量为: (6-11)其中,。由(6-11)式有 (6-12)由于与只有一次观测之差,故可认为近似相等,则由(6-12)式得 (6-13)随机误差序列的自相关系数定义为: (6-14)在实际应用中,随机误差序列的真实值是未知的,需要用估计值代替,得到自相关系数的估计值为: (6-15)在认为与近似相等的假定下,则(6-15)式可化简为: (6-16)所以,(6-13)式可以写成 (6-17)(3)检验序列相关性因为自相关系数的值介于-1和1之间,所以:,而且有值与的对应关系如表6-1所示。表6-1 值与的对应关系表值DW值随机误差项的序列相关性-1(-1,0) 0(0,1)1 4(2,4) 2(0,2)0 完全负序列相关 负序列相关 无序列相关 正序列相关 完全正序列相关从表6-1中,我们可以知道当值显著地接近于0或者4时,则存在序列相关性;而接近于2时,则不存在序列相关性。这样只要知道统计量的概率分布,在给定的显著性水平下,根据临界值的位置就可以对原假设进行检验。但是统计量的概率分布很难确定,作为一种变通的处理方法,杜宾和瓦特森在5%和1%的显著水平下,找到了上限临界值和下限临界值,并编制了D-W检验的上、下限表。这两个上下限只与样本的大小和解释变量的个数有关,而与解释变量的取值无关。具体的判别规则为:(1) ,拒绝,表明随机误差项之间存在正的序列相关;(2) ,拒绝,表明随机误差项之间存在正的序列相关;(3) ,接受,即认为随机误差项之间不存在序列相关性;(4) 或,不能判定是否存在序列相关性。上述四条判别规则可用图6-5表示: 3.D-W检验特点D-W检验法的优点在于其计算简单、应用方便,目前已成为最常用的序列相关性检验的方法。EViews软件在输出回归分析结果中直接给出了DW值,并且人们也习惯将DW值作为常规的检验统计量,连同值等一起在报告回归分析的计算结果时表明。但D-W检验也存在很大的局限性,在应用时应予以重视。D-W检验不适应随机误差项具有高阶序列相关的检验; D-W检验有两个无法判别的区域,一旦DW值落入这两个区域,必须调整样本容量或采取其他的检验方法;这一方法不适用于对联立方程模型中各单一方程随机误差项序列相关性的检验;D-W检验不适用于模型中含有滞后的被解释变量的情况。

二、回归检验法 1、定义回归检验法适用于任一随机变量序列相关性的检验,并能提供序列相关的具体形式及相关系数的估计值。2、应用步骤分三步进行:第一步,依据模型变量的样本观测数据,应用普通最小二乘法求出模型的样本估计式,并计算出随机误差项的估计值;第二步,建立与、的相互关系模型,由于它们相互关系的形式和类型是未知的,需要用多种函数形式进行试验,常用的函数形式主要有: 第三步,对于不同形式的与、的相互关系模型,用普通最小二乘法进行参数估计,得出回归估计式,再对估计式进行统计检验。如果检验的结果是每一种估计式都不显著的,就表明与、是不相关的,随机误差项之间不存在序列相关性。如果通过检验发现某一个估计式是显著的(若有多个估计式显著就选择最为显著的),就表明与、是相关的,随机误差项之间存在序列相关性,相关的形式就是统计检验显著的回归估计式,相关系数就是该估计式的参数估计值。回归检验法需要用多种形式的回归模型对与、的相关性进行试验分析,工作量大、计算复杂,显得极为繁琐。线性回归模型中随机误差项序列相关性的检验,在计量经济学的研究中是一个很重要的问题。但目前应用的检验方法都存在一些缺限和局限,还不能对这一问题进行完全有效的检验,更为完善的检验方法有待于进一步研究。有关于高阶序列相关性的检验,可以参考其它相关教科书。第三节 序列相关的处理 如果检验发现随机误差项之间存在序列相关性,应当首先分析序列相关产生的原因,引起序列相关的原因不同,修正序列相关的方法也不同。如果是回归模型变量选用不当,则应对模型中包含的解释变量进行调整,去掉无关的以及非重要的变量,引入重要的变量;如果是模型的形式选择不当,则应重新确定正确的模型形式;如果以上两种方法都不能消除序列相关性,则需要采用其他数学方法进行处理以消除序列相关性,然后再对模型中的未知参数进行估计。

三、差分法 差分法将原模型变换为差分模型,用增量数据代替原来的样本数据。差分法分为一阶差分法和广义差分法。

(一)一阶差分法 假设原模型为: (6-18)一阶差分法变换后的模型为: (6-19)其中, 如果,原模型存在完全一阶正相关,即 ,其中不存在序列相关性,那么差分模型满足应用普通最小二乘法的基本假设。用普通最小二乘法估计差分模型得到的参数估计值,即为原模型参数的无偏、有效估计值。

(二)广义差分法 一阶差分法仅适用于随机误差项的自相关系数等于1的情形。但在一般情况下,完全一阶正相关的情况并不多见,在这种情况下,随机误差项的序列相关性就要用广义差分法进行修正。对于模型(6-18)如果随机误差项存在一阶自相关,即,其中,为随机误差项的自相关系数,且有,不存在序列相关性。将(6-18)式滞后一期,并左右两边同乘,可得 (6-20)将(6-18)式减去(6-20)式,得 (6-21)在为已知的情况下,我们可以对(6-21)式进行如下变换 (6-22)将变换后的新变量代入(6-21)式,便可得到一个新的模型表示式: (6-23) 我们把上述变换过程称为广义差分变换,把通过广义差分变换得到的模型称为广义差分模型。我们应该注意到这一变换过程所构建的新变量,,由于差分变换要损失一个观测值,样本个数由个减少到个。为了避免损失自由度,可以将第一个观测值作如下变换:,通过对原模型进行广义差分变换,我们可以得到广义差分模型,广义差分模型中的随机误差项满足线性回归的经典假设,对广义差分模型进行OLS估计,得到的参数估计值仍然是最佳估计量。

四、杜宾两步法 进行广义差分变换的前提是已知的值。但是随机误差项的自相关系数,的值不可观测,使得的值也是未知的。所以利用广义差分法处理序列相关性时,首先需要估计出的值。这可以用杜宾(Durbin)两步估计法。我们以一元线性回归模型为例,对于模型 (6-24)如果随机误差项存在阶自回归形式的序列相关,即 (6-25)当、、时,便可利用杜宾两步法对的相关系数进行估计。第一步,对(6-24)式进行差分变换,可得 (6-26)整理(6-26)式,可得 (6-27)第二步:应用普通最小二乘法对包含被解释变量及解释变量的滞后变量在内的模型(6-27)式进行估计,求出随机误差项的自相关系数,,…, 的估计值,,…, 。再将,,…, 代入(6-26)式,可得 (6-28)(6-28)式的随机误差项具有零均值、方差齐性、不存在序列相关性的特点。在,,…, 已知的情况下,可以用普通最小乘法对(6-28)式进行估计,求出参数、的估计值、。此方法也适用于多元线性回归模型。杜宾两步法不但求出了自相关系数的估计值,而且也得出了模型参数的估计值。

五、迭代法 迭代估计法或科克伦-奥克特(Cochrane-Orcutt)估计法,是用逐步逼近的办法求的估计值。仍以(6-24)式为例,假设随机误差项存在一阶自回归形式的序列相关,即,,其中满足零均值、方差齐性、无序列相关性。迭代估计的具体步骤为:第一步,利用OLS法估计模型,计算残差出;第二步,根据上一步计算出的残差计算的估计值: 第三步,利用上一步求得的值对(6-24)式进行广义差分变换: 并得到广义差分模型:;第四步,再利用OLS法估计,计算出残差,根据残差计算的第二次逼近值: 第五步,重复执行第三、四步,直到的前后两次估计值比较接近,即估计误差小于事先给定的精度:。此时,以 作为的估计值,并用广义差分法进行变换,得到回归系数