acf图的两条虚线的值是什么意思

Python013

acf图的两条虚线的值是什么意思,第1张

就是虚线的大小。

acf的全称是Autocorrelation function,即自相关函数。但这个函数不仅可以计算自相关,也可以计算自协方差。具体代码如下:x acf(x)#计算该向量的自相关函数

autocorr autocorr$acf #autocorrelation

#输出如下

# [,1]

# [1,] 1.00000000

# [2,] 0.70000000

# [3,] 0.41212121

# [4,] 0.14848485

# [5,] -0.07878788

# [6,] -0.25757576

# [7,] -0.37575758

# [8,] -0.42121212

# [9,] -0.38181818

# [10,] -0.24545455

autocov autocov$acf #autocorrelation

# 输出如下

# [,1]

# [1,] 1.00000000

# [2,] 0.70000000

# [3,] 0.41212121

# [4,] 0.14848485

# [5,] -0.07878788

# [6,] -0.25757576

# [7,] -0.37575758

# [8,] -0.42121212

# [9,] -0.38181818

# [10,] -0.24545455自相关含义解释:自己 与 自己的过去 是否具有线性相关。范围是-1~1。绝对值越靠近1越相关,绝对值越靠近0越不相关。当纵线落入虚线以内,则认为该数值与0无显著差异,既可认为不相关。注意事项:如果直接带入自相关公式,会发现系数与R求的不一样因为R语言中的acf函数 并不是直接计算出自相关系数而是计算出不同滞后阶数的样本自相关系数、样本自协方差系数。 具体公式如下:样本自协方差系数公式: 其中对于 ,有 。n是样本总数,h是滞后阶数, 是样本平均数。【注意,很多网上的样本自协方差公式都是错误的,这个是经过计算验证的】样本自相关系数公式:深层次用法:在时间序列分析过程中一种分析手段是:根据 自相关系数图 和 偏自相关系数图 来猜测时间序列可能属于哪一种时间序列模型。【没有错,统计理论是严谨的,但一些统计方法却有一定的主观性】故需要分析人员大量浏览各种可能的已知时间序列模型,并熟悉他们的自相关系数图(acf函数)、偏自相关图(pacf函数)。并结合扩展的自相关函数(eacf函数,Tsay,Tia0,1984 W.S.Chan.1999 )实现模型定阶。已经被人熟知的基本规律有:“拖”指代拖尾eacf图的解读方式当然还有很多种其他判断模型的方法,也会利用自相关函数与偏自相关函数

时间序列(time series)是随机变量Y 1 、Y 2 、……Y t 的一个序列,它是由等距的时间点序列索引的。

一个时间序列的均值函数就是该时间序列在某个时间索引t上的期望值。一般情况下,某个时间序列在某个时间索引t 1 的均值并不等于该时间序列在另一个不同的时间索引t 2 的均值。

自协方差函数及自相关函数是衡量构成时间序列的随机变量在不同时间点上相互线性依赖性的两个重要函数。自相关函数通常缩略为ACF函数。ACF函数是对称的,但是无单位,其绝对值被数值1约束,即当两个时间序列索引之间的自相关度是1或-1,就代表两者之间存在完全线性依赖或相关,而当相关度是0时,就代表完全线性无关。

平稳性:实质描述的是一个时间序列的概率表现不会随着时间的流逝而改变。常用的平稳性的性质有严格平稳和弱平稳两个版本。tseries包的adf.test()函数可以检验时间序列的平稳性,返回的p值小于0.05则表示是平稳的。

白噪声是一个平稳过程,因为它的均值和方差都是常数。

随机漫步的均值是常数(不带漂移的随机漫步),但它的方差是随着时间的变化而不同的,因此它是不平稳的。

自回归模型(Autoregressive models, AR)来源于要让一个简单模型根据过去有限窗口时间里的最近值来解释某个时间序列当前值的想法。

自回归条件异方差模型:ARIMA模型的关键前提条件是,虽然序列本身是非平稳的,但是我们可以运用某个变换来获得一个平稳的序列。像这样为非平稳时间序列构建模型的方法之一是作出一个假设,假设该模型非平稳的原因是该模型的方差会以一种可预见的方式随时间变化,这样就可以把方差随时间的变化建模为一个自回归过程,这种模型被称为自回归条件异方差模型(ARCH)。加入了移动平均方差成分的ARCH模型称为广义自回归条件异方差模型(GARCH)。

任务:预测强烈地震

数据集:2000-2008年期间在希腊发生的强度大于里氏4.0级地震的时间序列。

不存在缺失值。

将经度和纬度之外的变量转换为数值型。

从图上可以看出,数据在30次左右波动,并且不存在总体向上的趋势。

通过尝试多个不同的组合来找到最优的阶数参数p,d,q,确定最优的准则是使用参数建模,能使模型的AIC值最小。

定义一个函数,它会针对某个阶数参数拟合出一个ARIMA模型,并返回模型的AIC值。如果某组参数导致模型无法收敛,就会产生错误,并且无法返回AIC,这时需要人为设置其AIC为无限大(InF)。

调用函数,选取最合适的模型。

然后找出最优的阶数参数:

得到最合适的模型为ARIMA(1, 1, 1)。再次使用最优参数训练模型。

使用forecast包预测未来值。

带颜色的条带是预测的置信区间,蓝色线表示均值,结果表示在后续的10个月里,地震的数量会有小幅增加。

检查自相关函数:

ACF绘图:虚线显示了一个95%的置信区间,特定延迟对应的ACF函数值如果处于该区间内,就不会被认为具有统计显著性(大于0)。这个ACF轮廓表明,针对本数据集,简单的AR(1)过程可能是一种合适的拟合方式。

PACF为偏自相关函数,是将时间延迟K的PACF定义为在消除了小于K的延迟中存在的任何相关性影响的情况下所产生的相关性。