时间序列分析

Python019

时间序列分析,第1张

在R中生成时间序列的前提是我们将分析对象转成时间序列函数对象,包括观测值、起始时间、种植时间、及周期(月、季度、年)的结构。这些都能通过ts( )函数实现。

R语言中,对时间序列数据进行分析处理时,使用差分函数要注意:差分函数diff()不带参数名的参数指滞后阶数,也就是与滞后第几阶的数据进行差分。如果要指定差分的阶数,则一定要使用带名称的参数:diff=2。

例如: sample表示样本数据。

1、diff(sample,2)表示是对滞后2阶的数据进行差分,一阶差分,等同于: diff(sample,lag=2)

2、diff(sample,diff=2)才是表示二阶差分

意:在函数中尽量避免使用没有命名的参数。在《时间序列分析及应用-R语言(第2版)》中,P315,描述到: 我们得到的教训就是,除非完全了解相关参数的位置,否则使用未命名参数是非常危险的。

截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);

拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。

拖尾 :始终有非零取值,不会在k大于某个常数后就恒等于零(或在0附近随机波动)

截尾 :在大于某个常数k后快速趋于0为k阶截尾

AR模型:自相关系数拖尾,偏自相关系数截尾;

MA模型:自相关系数截尾,偏自相关函数拖尾;

ARMA模型:自相关函数和偏自相关函数均拖尾。

根据输出结果, 自相关函数图拖尾,偏自相关函数图截尾 ,且n从2或3开始控制在置信区间之内,因而可判定为AR(2)模型或者AR(3)模型。

在我们日常所遇到的数据分析任务中,会遇到很多与日期时间挂钩的数据,比如本月每日的销售额和网页一天内每个时间节点的点击量。这类型的数据大多数为时间序列,而时间序列分析在日常中也是很常见的。现在我们先来聊一下R语言中关于日期时间的处理,之后有时间的话就学习一些有关时间序列分析的方法。

一、日期函数as.Date()函数

R中自带的函数as.Date首先和大家介绍一下它的日常用法,第一个就是我们使用as.Date来返回日期数据形式,且默认的格式为年-月-日,format参数用于识别输入的日期按照那种数据逻辑输入,比如下面数据是以"*年*月*日"的逻辑输入:

>as.Date("2019年9月28日", format = "%Y年%m月%d日")

[1] "2019-09-28"

其中我们看到上面%Y等等的字符,其实是日期格式的一种字符形式,常用的格式如下:

第二个用法就是我们给定起点日期,再输入延后天数,就可以输出对应的日期:

>as.Date(31,origin ='2019-01-01')

[1] "2019-02-01"

二、时间函数POSIXct与POSIXlt

(1).POSIXIt主要特点:作用是打散时间,把时间分成年、月、日、时、分、秒,并进行存储我们可以结合unclass()函数,从而提取日期时间信息。比如:

>unclass(as.POSIXlt('2018-9-7 8:12:23'))

$sec

[1] 23

$min

[1] 12

$hour

[1] 8

$mday

[1] 7

$mon

[1] 8

$year

[1] 118

$wday

[1] 5

$yday

[1] 249

$isdst

[1] 0

$zone

[1] "CST"

$gmtoff

[1] NA

我们输入带时间的日期数据,利用unclass和as.POSIXlt函数就可以返回秒、分、时、日、该年已过月数、已过年数(从1900起)、星期几、该天对应该年的第几天,时区等等。

(2).POSIXct 是以1970年1月1号8点开始的以秒进行存储,如果是负数,则是之前的日期时间;正数则是之后,比如:

>unclass(as.POSIXct('1970-1-1 8:00:20'))

[1] 20

attr(,"tzone")

[1] ""

三、日期时间的运算

(1).日期相减,得到相差的天数

>as.Date("2019-10-01") - as.Date('2019-9-26')

Time difference of 5 days

(2).带时间的日期相减,得到相差数(可以指定units参数为"secs","mins","hours","days")

>difftime('2019-10-1 10:00:00',"2019-10-1 6:00:00",units="hours")

Time difference of 4 hours

用xlim或者ylim命令。比如:

# Specify axis options within plot()

plot(x, y, main="title", sub="subtitle",

xlab="X-axis label", ylab="y-axix label",

xlim=c(xmin, xmax), ylim=c(ymin, ymax))