使用R语言进行协整关系检验

Python014

使用R语言进行协整关系检验,第1张

使用R语言进行协整关系检验协整检验是为了检验非平稳序列的因果关系,协整检验是解决伪回归为问题的重要方法。首先回归伪回归例子:伪回归Spurious regression伪回归方程的拟合优度、显著性水平等指标都很好,但是其残差序列是一个非平稳序列,拟合一个伪回归:#调用相关R包library(lmtest)library(tseries)#模拟序列set.seed(123456)e1=rnorm(500)e2=rnorm(500)trd=1:500y1=0.8*trd+cumsum(e1)y2=0.6*trd+cumsum(e2)sr.reg=lm(y1~y2)#提取回归残差error=residuals(sr.reg)#作残差散点图plot(error, main="Plot of error")#对残差进行单位根检验adf.test(error)## Dickey-Fuller = -2.548, Lag order = 7, p-value = 0.3463## alternative hypothesis: stationary#伪回归结果,相关参数都显著summary(sr.reg)## Residuals:## Min 1Q Median 3Q Max## -30.654 -11.526 0.359 11.142 31.006## Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) -29.32697 1.36716 -21.4 <2e-16 ***## y2 1.44079 0.00752 191.6 <2e-16 ***## Residual standard error: 13.7 on 498 degrees of freedom## Multiple R-squared: 0.987, Adjusted R-squared: 0.987## F-statistic: 3.67e+04 on 1 and 498 DF, p-value: <2e-16dwtest(sr.reg)## DW = 0.0172, p-value <2.2e-16恩格尔-格兰杰检验Engle-Granger第一步:建立两变量(y1,y2)的回归方程,第二部:对该回归方程的残差(resid)进行单位根检验其中,原假设两变量不存在协整关系,备择假设是两变量存在协整关系。利用最小二乘法对回归方程进行估计,从回归方程中提取残差进行检验。set.seed(123456)e1=rnorm(100)e2=rnorm(100)y1=cumsum(e1)y2=0.6*y1+e2# (伪)回归模型lr.reg=lm(y2~y1)error=residuals(lr.reg)adf.test(error)## Dickey-Fuller = -3.988, Lag order = 4, p-value = 0.01262## alternative hypothesis: stationaryerror.lagged=error[-c(99,100)]#建立误差修正模型ECM.REGdy1=diff(y1)dy2=diff(y2)diff.dat=data.frame(embed(cbind(dy1, dy2),2))#emed表示嵌入时间序列dy1,dy2到diff.datcolnames(diff.dat)=c("dy1","dy2","dy1.1","dy2.1")ecm.reg=lm(dy2~error.lagged+dy1.1+dy2.1, data=diff.dat)summary(ecm.reg)## Residuals:## Min 1Q Median 3Q Max## -2.959 -0.544 0.137 0.711 2.307## Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 0.0034 0.1036 0.03 0.97## error.lagged -0.9688 0.1585 -6.11 2.2e-08 ***## dy1.1 0.8086 0.1120 7.22 1.4e-10 ***## dy2.1 -1.0589 0.1084 -9.77 5.6e-16 ***## Residual standard error: 1.03 on 94 degrees of freedom## Multiple R-squared: 0.546, Adjusted R-squared: 0.532## F-statistic: 37.7 on 3 and 94 DF, p-value: 4.24e-16par(mfrow=c(2,2))plot(ecm.reg)Johansen-Juselius(JJ)协整检验法,该方法是一种用向量自回归(VAR)模型进行检验的方法,适用于对多重一阶单整I(1)序列进行协整检验。JJ检验有两种:特征值轨迹检验和最大特征值检验。我们可以调用urca包中的ca.jo命令完成这两种检验。其语法:ca.jo(x, type = c("eigen", "trace"), ecdet = c("none", "const", "trend"), K = 2,spec=c("longrun", "transitory"), season = NULL, dumvar = NULL)其中:x为矩阵形式数据框;type用来设置检验方法;ecdet用于设置模型形式:none表示不带截距项,const表示带常数截距项,trend表示带趋势项。K表示自回归序列的滞后阶数;spec表示向量误差修正模型反映的序列间的长期或短期关系;season表示季节效应;dumvar表示哑变量设置。set.seed(12345)e1=rnorm(250,0,0.5)e2=rnorm(250,0,0.5)e3=rnorm(250,0,0.5)#模拟没有移动平均的向量自回归序列;u1.ar1=arima.sim(model=list(ar=0.75), innov=e1, n=250)u2.ar1=arima.sim(model=list(ar=0.3), innov=e2, n=250)y3=cumsum(e3)y1=0.8*y3+u1.ar1y2=-0.3*y3+u2.ar1#合并y1,y2,y3构成进行JJ检验的数据库;y.mat=data.frame(y1, y2, y3)#调用urca包中cajo命令对向量自回归序列进行JJ协整检验vecm=ca.jo(y.mat)jo.results=summary(vecm)#cajorls命令可以得到限制协整阶数的向量误差修正模型的最小二乘法回归结果vecm.r2=cajorls(vecm, r=2)vecm.r2## Call:lm(formula = substitute(form1), data = data.mat)## Coefficients:## y1.d y2.d y3.d## ect1 -0.33129 0.06461 0.01268## ect2 0.09447 -0.70938 -0.00916## constant 0.16837 -0.02702 0.02526## y1.dl1-0.22768 0.02701 0.06816## y2.dl1 0.14445 -0.71561 0.04049## y3.dl1 0.12347 -0.29083 -0.07525## $beta## ect1 ect2## y1.l2 1.000e+00 0.0000## y2.l2 -3.402e-18 1.0000## y3.l2 -7.329e-01 0.2952

时间序列(time series)是随机变量Y 1 、Y 2 、……Y t 的一个序列,它是由等距的时间点序列索引的。

一个时间序列的均值函数就是该时间序列在某个时间索引t上的期望值。一般情况下,某个时间序列在某个时间索引t 1 的均值并不等于该时间序列在另一个不同的时间索引t 2 的均值。

自协方差函数及自相关函数是衡量构成时间序列的随机变量在不同时间点上相互线性依赖性的两个重要函数。自相关函数通常缩略为ACF函数。ACF函数是对称的,但是无单位,其绝对值被数值1约束,即当两个时间序列索引之间的自相关度是1或-1,就代表两者之间存在完全线性依赖或相关,而当相关度是0时,就代表完全线性无关。

平稳性:实质描述的是一个时间序列的概率表现不会随着时间的流逝而改变。常用的平稳性的性质有严格平稳和弱平稳两个版本。tseries包的adf.test()函数可以检验时间序列的平稳性,返回的p值小于0.05则表示是平稳的。

白噪声是一个平稳过程,因为它的均值和方差都是常数。

随机漫步的均值是常数(不带漂移的随机漫步),但它的方差是随着时间的变化而不同的,因此它是不平稳的。

自回归模型(Autoregressive models, AR)来源于要让一个简单模型根据过去有限窗口时间里的最近值来解释某个时间序列当前值的想法。

自回归条件异方差模型:ARIMA模型的关键前提条件是,虽然序列本身是非平稳的,但是我们可以运用某个变换来获得一个平稳的序列。像这样为非平稳时间序列构建模型的方法之一是作出一个假设,假设该模型非平稳的原因是该模型的方差会以一种可预见的方式随时间变化,这样就可以把方差随时间的变化建模为一个自回归过程,这种模型被称为自回归条件异方差模型(ARCH)。加入了移动平均方差成分的ARCH模型称为广义自回归条件异方差模型(GARCH)。

任务:预测强烈地震

数据集:2000-2008年期间在希腊发生的强度大于里氏4.0级地震的时间序列。

不存在缺失值。

将经度和纬度之外的变量转换为数值型。

从图上可以看出,数据在30次左右波动,并且不存在总体向上的趋势。

通过尝试多个不同的组合来找到最优的阶数参数p,d,q,确定最优的准则是使用参数建模,能使模型的AIC值最小。

定义一个函数,它会针对某个阶数参数拟合出一个ARIMA模型,并返回模型的AIC值。如果某组参数导致模型无法收敛,就会产生错误,并且无法返回AIC,这时需要人为设置其AIC为无限大(InF)。

调用函数,选取最合适的模型。

然后找出最优的阶数参数:

得到最合适的模型为ARIMA(1, 1, 1)。再次使用最优参数训练模型。

使用forecast包预测未来值。

带颜色的条带是预测的置信区间,蓝色线表示均值,结果表示在后续的10个月里,地震的数量会有小幅增加。

检查自相关函数:

ACF绘图:虚线显示了一个95%的置信区间,特定延迟对应的ACF函数值如果处于该区间内,就不会被认为具有统计显著性(大于0)。这个ACF轮廓表明,针对本数据集,简单的AR(1)过程可能是一种合适的拟合方式。

PACF为偏自相关函数,是将时间延迟K的PACF定义为在消除了小于K的延迟中存在的任何相关性影响的情况下所产生的相关性。