如何在rstudio里面检验异方差性

Python019

如何在rstudio里面检验异方差性,第1张

安装:R语言和它的UI界面非常安装比较简单,这里就不重复描述了,只需要到R的上,对应自己电脑的操作系统对应的版本即可。R提供window、linux和MAC OS X版本,对应即可,如笔者的是普通的window 32位。百度R,左上角的download,选择合适的镜像。如果找不到安装,那就不适合继续学习R语言了。

安装好之后,我们打开R界面,可以看到,R的界面非常简洁,只有一个菜单栏,和一个默认新建的R Console 控制台。

R Console 控制台的使用:我们可以在R Console 控制台内输入脚本进行运算、绘图和分析、如我们输入运算:1+2,按回车键。可以看到系统在下一行内弹出了一个3,有点类似于cmd的操作。

我们也可以对编辑脚本,打开文件--新建--new script,可以在弹出的R编辑器--R Editor中进行编辑录入脚本的操作,编辑完毕可以进行保存和读入等一系列操作

从上面的界面和操作可以看出,单单使用R自带的gui界面,难以进行方便快捷的操作,因此我们需要使用到R的辅助UIRStudio。同样地我们安装好并打开它。我们看到RStudio界面比R自身内容丰富很多,整个界面切成多个模块进行同步操作显示,脚本区、控制台区、文件区非常清晰易用。

同样的,我们操作1+2、1+3的运算,可以在脚本区编辑录入1+2,回车下一行继续录入1+3,这时我们看到编辑区有两行代码,证明这个区域与运行区是分离的,可以方便我们自由地编写修改脚本。

如果我们需要运行刚才编辑的两行脚本,我们可以选中它,按Ctrl+回车即可进行运行,选中1行则执行一行,选中全部则执行全部。这里操作运算了3次,对应不同的运算结果显示在了编辑区下方的控制台Console 区域。同样地,我们可以对这类脚本进行保存、打开重编辑、运行等一系列操作

时间序列(time series)是随机变量Y 1 、Y 2 、……Y t 的一个序列,它是由等距的时间点序列索引的。

一个时间序列的均值函数就是该时间序列在某个时间索引t上的期望值。一般情况下,某个时间序列在某个时间索引t 1 的均值并不等于该时间序列在另一个不同的时间索引t 2 的均值。

自协方差函数及自相关函数是衡量构成时间序列的随机变量在不同时间点上相互线性依赖性的两个重要函数。自相关函数通常缩略为ACF函数。ACF函数是对称的,但是无单位,其绝对值被数值1约束,即当两个时间序列索引之间的自相关度是1或-1,就代表两者之间存在完全线性依赖或相关,而当相关度是0时,就代表完全线性无关。

平稳性:实质描述的是一个时间序列的概率表现不会随着时间的流逝而改变。常用的平稳性的性质有严格平稳和弱平稳两个版本。tseries包的adf.test()函数可以检验时间序列的平稳性,返回的p值小于0.05则表示是平稳的。

白噪声是一个平稳过程,因为它的均值和方差都是常数。

随机漫步的均值是常数(不带漂移的随机漫步),但它的方差是随着时间的变化而不同的,因此它是不平稳的。

自回归模型(Autoregressive models, AR)来源于要让一个简单模型根据过去有限窗口时间里的最近值来解释某个时间序列当前值的想法。

自回归条件异方差模型:ARIMA模型的关键前提条件是,虽然序列本身是非平稳的,但是我们可以运用某个变换来获得一个平稳的序列。像这样为非平稳时间序列构建模型的方法之一是作出一个假设,假设该模型非平稳的原因是该模型的方差会以一种可预见的方式随时间变化,这样就可以把方差随时间的变化建模为一个自回归过程,这种模型被称为自回归条件异方差模型(ARCH)。加入了移动平均方差成分的ARCH模型称为广义自回归条件异方差模型(GARCH)。

任务:预测强烈地震

数据集:2000-2008年期间在希腊发生的强度大于里氏4.0级地震的时间序列。

不存在缺失值。

将经度和纬度之外的变量转换为数值型。

从图上可以看出,数据在30次左右波动,并且不存在总体向上的趋势。

通过尝试多个不同的组合来找到最优的阶数参数p,d,q,确定最优的准则是使用参数建模,能使模型的AIC值最小。

定义一个函数,它会针对某个阶数参数拟合出一个ARIMA模型,并返回模型的AIC值。如果某组参数导致模型无法收敛,就会产生错误,并且无法返回AIC,这时需要人为设置其AIC为无限大(InF)。

调用函数,选取最合适的模型。

然后找出最优的阶数参数:

得到最合适的模型为ARIMA(1, 1, 1)。再次使用最优参数训练模型。

使用forecast包预测未来值。

带颜色的条带是预测的置信区间,蓝色线表示均值,结果表示在后续的10个月里,地震的数量会有小幅增加。

检查自相关函数:

ACF绘图:虚线显示了一个95%的置信区间,特定延迟对应的ACF函数值如果处于该区间内,就不会被认为具有统计显著性(大于0)。这个ACF轮廓表明,针对本数据集,简单的AR(1)过程可能是一种合适的拟合方式。

PACF为偏自相关函数,是将时间延迟K的PACF定义为在消除了小于K的延迟中存在的任何相关性影响的情况下所产生的相关性。

用方差稳定变换y=√y消除异方差用R做法:原模型y=a+bx+e的异方差指的是随机干扰项e存在异方差。

在样本回归函数中,随机干扰项不能观测,只能观测残差项,利用怀特检验等方法可以得到异方差与自变量的某种关系,即异方差结构,比如e^2=d*x^2等,用此关系作为异方差结构估计,在样本函数两侧同时除以权重x^2即可以得到异方差调整后满足经典假设的模型从而得到有效的参数估计。

后向误差分析

其理论由詹姆斯·威尔金森(James H. Wilkinson)提出和推广,可用于确定实现数字函数的算法在数值是否稳定。方法表明,尽管由于舍入误差而导致的计算结果不完全正确,但这是一个精确的解决方案。 如果所需的扰动小,按照输入数据的不确定性的顺序,则结果在某种意义上与数据“应得的”一样准确。 然后将算法定义为向后稳定。