使用R语言进行协整关系检验

Python040

使用R语言进行协整关系检验,第1张

使用R语言进行协整关系检验

协整检验是为了检验非平稳序列的因果关系,协整检验是解决伪回归为问题的重要方法。首先回归伪回归例子:

伪回归Spurious regression伪回归方程的拟合优度、显著性水平等指标都很好,但是其残差序列是一个非平稳序列,拟合一个伪回归:

#调用相关R包

library(lmtest)

library(tseries)

#模拟序列

set.seed(123456)

e1=rnorm(500)

e2=rnorm(500)

trd=1:500

y1=0.8*trd+cumsum(e1)

y2=0.6*trd+cumsum(e2)

sr.reg=lm(y1~y2)

#提取回归残差

error=residuals(sr.reg)

#作残差散点图

plot(error, main="Plot of error")

#对残差进行单位根检验

adf.test(error)

## Dickey-Fuller = -2.548, Lag order = 7, p-value = 0.3463

## alternative hypothesis: stationary

#伪回归结果,相关参数都显著

summary(sr.reg)

## Residuals:

## Min 1Q Median 3Q Max

## -30.654 -11.526 0.359 11.142 31.006

## Coefficients:

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) -29.32697 1.36716 -21.4 <2e-16 ***

## y2 1.44079 0.00752 191.6 <2e-16 ***

## Residual standard error: 13.7 on 498 degrees of freedom

## Multiple R-squared: 0.987, Adjusted R-squared: 0.987

## F-statistic: 3.67e+04 on 1 and 498 DF, p-value: <2e-16

dwtest(sr.reg)

## DW = 0.0172, p-value <2.2e-16

恩格尔-格兰杰检验Engle-Granger第一步:建立两变量(y1,y2)的回归方程,第二部:对该回归方程的残差(resid)进行单位根检验其中,原假设两变量不存在协整关系,备择假设是两变量存在协整关系。利用最小二乘法对回归方程进行估计,从回归方程中提取残差进行检验。

set.seed(123456)

e1=rnorm(100)

e2=rnorm(100)

y1=cumsum(e1)

y2=0.6*y1+e2

# (伪)回归模型

lr.reg=lm(y2~y1)

error=residuals(lr.reg)

adf.test(error)

## Dickey-Fuller = -3.988, Lag order = 4, p-value = 0.01262

## alternative hypothesis: stationary

error.lagged=error[-c(99,100)]

#建立误差修正模型ECM.REG

dy1=diff(y1)

dy2=diff(y2)

diff.dat=data.frame(embed(cbind(dy1, dy2),2))#emed表示嵌入时间序列dy1,dy2到diff.dat

colnames(diff.dat)=c("dy1","dy2","dy1.1","dy2.1")

ecm.reg=lm(dy2~error.lagged+dy1.1+dy2.1, data=diff.dat)

summary(ecm.reg)

## Residuals:

## Min 1Q Median 3Q Max

## -2.959 -0.544 0.137 0.711 2.307

## Coefficients:

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) 0.0034 0.1036 0.03 0.97

## error.lagged -0.9688 0.1585 -6.11 2.2e-08 ***

## dy1.1 0.8086 0.1120 7.22 1.4e-10 ***

## dy2.1 -1.0589 0.1084 -9.77 5.6e-16 ***

## Residual standard error: 1.03 on 94 degrees of freedom

## Multiple R-squared: 0.546, Adjusted R-squared: 0.532

## F-statistic: 37.7 on 3 and 94 DF, p-value: 4.24e-16

par(mfrow=c(2,2))

plot(ecm.reg)

Johansen-Juselius(JJ)协整检验法,该方法是一种用向量自回归(VAR)模型进行检验的方法,适用于对多重一阶单整I(1)序列进行协整检验。JJ检验有两种:特征值轨迹检验和最大特征值检验。我们可以调用urca包中的ca.jo命令完成这两种检验。其语法:

ca.jo(x, type = c("eigen", "trace"), ecdet = c("none", "const", "trend"), K = 2,spec=c("longrun", "transitory"), season = NULL, dumvar = NULL)

其中:x为矩阵形式数据框;type用来设置检验方法;ecdet用于设置模型形式:none表示不带截距项,const表示带常数截距项,trend表示带趋势项。K表示自回归序列的滞后阶数;spec表示向量误差修正模型反映的序列间的长期或短期关系;season表示季节效应;dumvar表示哑变量设置。

set.seed(12345)e1=rnorm(250,0,0.5)e2=rnorm(250,0,0.5)e3=rnorm(250,0,0.5)#模拟没有移动平均的向量自回归序列;u1.ar1=arima.sim(model=list(ar=0.75), innov=e1, n=250)u2.ar1=arima.sim(model=list(ar=0.3), innov=e2, n=250)y3=cumsum(e3)y1=0.8*y3+u1.ar1y2=-0.3*y3+u2.ar1#合并y1,y2,y3构成进行JJ检验的数据库;y.mat=data.frame(y1, y2, y3)#调用urca包中cajo命令对向量自回归序列进行JJ协整检验vecm=ca.jo(y.mat)jo.results=summary(vecm)#cajorls命令可以得到限制协整阶数的向量误差修正模型的最小二乘法回归结果vecm.r2=cajorls(vecm, r=2)vecm.r2## Call:lm(formula = substitute(form1), data = data.mat)## Coefficients:## y1.d y2.d y3.d## ect1 -0.33129 0.06461 0.01268## ect2 0.09447 -0.70938 -0.00916## constant 0.16837 -0.02702 0.02526## y1.dl1-0.22768 0.02701 0.06816## y2.dl1 0.14445 -0.71561 0.04049## y3.dl1 0.12347 -0.29083 -0.07525## $beta## ect1 ect2## y1.l2 1.000e+00 0.0000## y2.l2 -3.402e-18 1.0000## y3.l2 -7.329e-01 0.2952

计量中检验的一般套路是以 p-value 显著、拒绝原假设为理想情况,然而总有几个检验的假设是不按套路出牌的。Hansen 检验算一个,LR 检验算第二个。

LR 检验可用于模型的比较和选择,用法与 Hausman 检验相似:

reg ... (model 1)

est store m1

reg ... (model 2)

lrtest m1 .

配合 AIC 和 BIC 信息指标使用:

lrtest m1 . ,stats

如何理解 Stata 汇报的结果?

回到检验本身,似然比是有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。因此,似然比检验的实质是比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。

似然比检验的思想是:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。因此:

H0:参数约束有效,有约束模型优于无约束模型。

H1:参数约束无效,无约束模型优于有约束模型。

划重点: 不拒绝 H0 表明有约束模型更优。

约束模型与无约束模型是相对而言的, 变量越少的模型受到的约束更多(βi=0),变量最多的模型才是无约束模型

Stata 会自动识别哪个是约束模型,在检验结果第一行列出:ModelA nested in ModelB 。nested 意为嵌套,A 嵌套在 B 中,就是说 A 是约束模型,B 是无约束模型。

在截图的例子中,LR 具有统计显著性,因此拒绝原假设,选择无约束模型,即 gsem1。

注意,一般情况下, 约束模型的 AIC 是小于无约束模型的 。此处顺便补充一句,AIC 信息的判断标准是 " the smaller the better ",不关心绝对值,只关心相对值。因此,一个负的绝对值大的 AIC 是好于正的绝对值小的 AIC 的。

既然通常情况下,约束模型的 AIC 总是小于无约束模型的,那么凭借 AIC 信息就无法对两个模型进行有效的比较。这就显现出 LR 的价值:在 AIC 提供的信息不充分的情况下,如何比较有约束模型和无约束模型的优劣?LR 检验指出,如果参数约束有效,那么加上这样的约束不会引起似然函数最大值的大幅度降低。

变量 服从的分布里有未知参数 ,记其概率密度函数为 ,联合概率密度函数为 。

原假设 是对参数 的假设,比如 。

备择假设 。

若参数有多种可能的取值,则假设 ,备择假设 ,其中 , 表示集合。

从假设可以看出,似然比检验(或概率比检验)这种推断常用于区分样本来自这类分布还是那类分布的参数检验问题。

我们知道,似然函数 是 个独立样本的联合概率密度函数,就是出现 个样本为向量 的概率,就是 的连乘。因此有 ,通常取 。

记 成立时的似然函数为 。它是原假设成立时,观察到样本点 的可能性的一个度量(似然),即 次取样的结果为向量 的概率。

若参数有多种可能的取值(即假设为集合的情况 ),就用广义似然函数 (用 的极大似然估计 代入计算可得)。

同理,记 成立时的似然函数为 (或广义似然函数 )。它是在 成立的条件下, 次取样的结果为向量 的概率。

定义 为似然比。

显然, 越大,备择假设成立观察到样本点 的可能性越高,拒绝 的概率越高。换句话说,样本 在 条件下出现的概率 比 在 条件下出现的概率 的比值越大, 成立的可能性越高。

因此,我们设定临界值 ,当似然比 时,我们就拒绝 。临界值 由似然比函数(往往是关于某个可知道分布的统计量T(X)的单调函数)结合给定的显著性水平值就能确定。

Ref:

数理统计学习笔记:极大似然估计

数理统计学习笔记:似然比检验