求问R语言怎么用ecdf的结果

Python029

求问R语言怎么用ecdf的结果,第1张

相当于一个函数,你可以看下:

x <- rnorm(1000)

y <- ecdf(x)

y(x)

plot(x,y(x), ylab = "ECDF(x)")

ks.test()实现了KS检验,可以检验任意样本是不是来自给定的连续分布。

你这里的用法就是:

ks.test(data,pt,df=df) #data是样本的数据,df是要检验的t分布的自由度

我们可以用很多方法分析一个单变量数据集的分布。最简单的办法就是直接看数

字。利用函数summary 和fivenum 会得到两个稍稍有点差异的汇总信息。此外,stem

(\茎叶"图)也会反映整个数据集的数字信息。

>attach(faithful)

>summary(eruptions)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.600 2.163 4.000 3.488 4.454 5.100

>fivenum(eruptions)

[1] 1.6000 2.1585 4.0000 4.4585 5.1000

>stem(eruptions)

The decimal point is 1 digit(s) to the left of the |

16 | 070355555588

18 | 000022233333335577777777888822335777888

20 | 00002223378800035778

22 | 0002335578023578

24 | 00228

26 | 23

28 | 080

30 | 7

32 | 2337

34 | 250077

36 | 0000823577

38 | 2333335582225577

40 | 0000003357788888002233555577778

42 | 03335555778800233333555577778

44 | 02222335557780000000023333357778888

46 | 0000233357700000023578

48 | 00000022335800333

50 | 0370

茎叶图和柱状图相似,R 用函数hist 绘制柱状图。

>hist(eruptions)

>## 让箱距缩小,绘制密度图

>hist(eruptions, seq(1.6, 5.2, 0.2), prob=TRUE)

>lines(density(eruptions, bw=0.1))

>rug(eruptions) # 显示实际的数据点

更为精致的密度图是用函数density 绘制的。在这个例子中,我们加了一条

由density 产生的曲线。你可以用试错法(trial-and-error)选择带宽bw(bandwidth)

因为默认的带宽值让密度曲线过于平滑(这样做常常会让你得到非常有\意思"的密度

分布)。(现在已经有一些自动的带宽挑选方法2,在这个例子中bw = "SJ"给出的结

果不错。)

我们可以用函数ecdf 绘制一个数据集的经验累积分布(empirical cumulative

distribution)函数。

>plot(ecdf(eruptions), do.points=FALSE, verticals=TRUE)

显然,这个分布和其他标准分布差异很大。那么右边的情况怎么样呢,就是火山

爆发3分钟后的状况?我们可以拟合一个正态分布,并且重叠前面得到的经验累积密

度分布。

>long <- eruptions[eruptions >3]

>plot(ecdf(long), do.points=FALSE, verticals=TRUE)

>x <- seq(3, 5.4, 0.01)

>lines(x, pnorm(x, mean=mean(long), sd=sqrt(var(long))), lty=3)

分位比较图(Quantile-quantile (Q-Q) plot)便于我们更细致地研究二者的吻合

程度。

par(pty="s") # 设置一个方形的图形区域

qqnorm(long)qqline(long)

上述命令得到的QQ图表明二者还是比较吻合的,但右侧尾部偏离期望的正态分布。

我们可以用t 分布获得一些模拟数据以重复上面的过程

x <- rt(250, df = 5)

qqnorm(x)qqline(x)

这里得到的QQ图常常会出现偏离正态期望的长尾区域(如果是随机样本)。我们可以用

下面的命令针对特定的分布绘制Q-Q图

qqplot(qt(ppoints(250), df = 5), x, xlab = "Q-Q plot for t dsn")

qqline(x)

最后,我们可能需要一个比较正规的正态性检验方法。R提供了Shapiro-Wilk 检

>shapiro.test(long)

Shapiro-Wilk normality test

data: long

W = 0.9793, p-value = 0.01052

和Kolmogorov-Smirnov 检验

>ks.test(long, "pnorm", mean = mean(long), sd = sqrt(var(long)))

One-sample Kolmogorov-Smirnov test

data: long

D = 0.0661, p-value = 0.4284

alternative hypothesis: two.sided

(注意一般的统计分布理论(distribution theory)在这里可能无效,因为我们用同样

的样本对正态分布的参数进行估计的。)

转载于:

http://www.biostatistic.net/thread-2413-1-1.html

用法:assign(x, value, pos = -1, envir = as.environment(pos),  inherits = FALSE, immediate = TRUE)

assign函数在循环时候,给变量赋值。

举例说明:

1、

for (i in 1:(length(rowSeq)-1)){

  assign(paste("nginx_server_fields7_", i, sep = ""), nginx_server_fields7[(rowSeq[(i-1)+1]):(rowSeq[i+1]), ])

}

2、

for (i in 1:3){

    assign(paste("a", i, sep = ""), i:10)

}

ls()

[1] "a1" "a2" "a3" "i"

>a1

[1]  1  2  3  4  5  6  7  8  9 10

>a2

[1]  2  3  4  5  6  7  8  9 10

>a3

[1] 3  4  5  6  7  8  9 10

1、paste函数可用于字符串连接

用法:paste (..., sep = " ", collapse = NULL),分隔符默认为空格

我们简单举个例子

1)paste("a","b") ##能连接a b

[1] "a b"

paste("a","b","c")

[1] "a b c"

2)设置分隔符paste("a","b",sep="=") ##注意到用等号分隔了

[1] "a=b"

3)连接多个元素paste("a",1:5,sep="") ##会自动每个元素与a相连

[1] "a1""a2""a3""a4""a5"

4)paste("a",1:5,".pdf",sep="") ##比如想批量输出文件名

[1] "a1.pdf""a2.pdf""a3.pdf""a4.pdf""a5.pdf"、

2、collapse参数

谢益辉大佬说这个参数引无数英雄竞折腰啊,大家只会sep

1)paste("a",1,collapse="+") ##注意到了吧,collapse没用上

[1] "a 1"

2)paste(c("a","b","c"),collapse="+") ##这样就很容易理解了,collapse折叠起了元素

[1] "a+b+c"

3)paste("a",1:5,sep="") ##再来更明显的举例

[1] "a1""a2""a3""a4""a5"

4)paste("a",1:5,sep="",collapse="+") ##先在元素间连接,然后折叠

[1] "a1+a2+a3+a4+a5"

3、与paste0函数的区别

paste0函数,默认sep=""是两个函数唯一的区别

paste(c("a","b","c"),1:3)##默认空格符

[1] "a 1""b 2""c 3"

paste(c("a","b","c"),1:3,sep=" ")

[1] "a 1""b 2""c 3"

paste(c("a","b","c"),1:3,sep="")

[1] "a1""b2""c3"

如果两个向量长度不同paste(c("a","b","c"),1:5) ##超出范围后继续从前向后连接

[1] "a 1"  "b 2"  "c 3"  "a 4"  "b 5"

paste0(c("a","b","c"),1:3)#默认元素连接为sep=""

[1] "a1""b2""c3"

用法:unlist()函数的作用,就是将list结构的数据du,变zhi成非list的数据,即将list数据变成 字符串向量 或者数字向量的形式

如果是向量的话就直接输出向量

例子:

%in%相当于match()函数的一个缩写。用来判断一个数组或矩阵是否包含在另一个数组或矩阵里。举个例子一目了然:

#首先复制两个变量a和b

>a <- 1:5

>b <- 3:7

>a %in% b    #看a的元素是否包含在b中输出结果如下:

[1] FALSE FALSE  TRUE  TRUE  TRUE

用法:apply(x, MARGIN, FUN, ...)

作用:对 矩阵 的行或列使用函数,或者对 数组 的各个维度使用函数

x为数据对象,MARGIN是维度的下标,MARGIN=1表示行,MARGIN=2表示列,FUN是自己指定的任意或自定义函数

注:数据框dataframe也可以使用apply函数,该函数会自动将数据框转化为矩阵,但前提是数据框中各列的数据类型 必须是数值型,否则会报错。

用法:lapply(x,FUN,...)

作用:对列表中的各个元素使用函数

x是格式为列表的数据源,FUN是任意函数。

intersect(data1,data2):交集

union(data1,data2):并集