R语言|绘制物种累计曲线

2023-02-24 21:38:01Python019

R语言|绘制物种累计曲线,第1张

物种累积曲线( species accumulation curves)用于衡量和预测群落中物种丰富度随样本量扩大而增加的幅度，在生物多样性和群落调查中，被广泛用于判断样本量是否充分的并估计群落丰富度。

一般而言，在样本量较少的情况下，随着样本数量的增加，将有较大可能性发现大量新的物种，此时曲线呈急剧上升状态；当样本数量已经较大时，此时群落中的ASV/OTU总数将不再随着样本数量增加而显著增加，曲线将趋于平缓。

因此，通过物种累积曲线可以判断样本量是否充分：若曲线始终保持上升趋势，则表明样本量不足，反之，则表明样本量已足以反应群落的物种组成。在样本量充分的前提下，运用物种累积曲线还可以对物种丰富度进行预测。

下面我使用R脚本，vegan包对ASV/OTU丰度矩阵中每个样本所对应的SAV/OTU总数绘制specaccum物种累计曲线。

1.调用vegan包，读取物种数据；

2.使用 specaccum 函数用来计算物种的累计曲线；

3.作图展示。

如图，随着取样样本数量逐渐增加，所观测到的物种种类也不断增加。当曲线趋近平缓时，代表群落中的物种接近全部被观测到；反之不饱和，还需继续观测更多的样本数量。

数据准备

频数表是数理统计中由于所观测的数据较多，为简化计算，将这些数据按等间隔分组，然后按选举唱票法数出落在每个组内观测值的个数，称为(组)频数。这样得到的表称“频数表”或“频数分布表”。

列联表（contingency table）是观测数据按两个或更多属性（定性变量）分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。列联表可以告诉你组成表格的各种变量组合的频数或比例。列联表分析的基本问题是：观察各属性之间是否独立，做简单的描述性统计。

按两个变量交叉分类的，该列联表称为两维列联表；若按3个变量交叉分类，所得的列联表称为3维列联表，依次类推。一维列联表就是频数分布表。频数就是各个分组中属性出现的次数。

1.一维列联表

2.二维列联表

table(A, B)

其中，A是行变量，B是列变量。

xtabs(~ A + B, data = mydata)

其中的mydata是一个矩阵或数据框。总的来说，要进行交叉分类的变量应出现在公式的右侧（即~符号的右方），以+作为分隔符。

gmodels包CrossTable()

3.多维列联表

参考资料：

library(openxlsx) #加载读取Excel数据包

#【输出设置】

#setwd("C:/Users/lst89/Documents/mvexer5") #设置目录

options(digits=4)

par(mar=c(4,4,2,1))

#第二章p57-2-1

R=matrix(c(1,0.8,0.26,0.67,0.34,0.8,1,0.33,0.59,0.34,0.26,0.33,1,0.37,0.21,0.67,0.59,0.37,1,0.35,0.34,0.34,0.21,0.35,1),nrow = 5,ncol = 5)

R #输入数据

solve(R) #求逆矩阵

R.e=eigen(R,symmetric=T) #symmetric是判断是否为对称阵，

R.e #求矩阵的特诊值

R.e $ vectors%*%diag(R.e $ values)%*%t(R.e $ vectors)#特征向量

#第二章p57-2-2

library(openxlsx) #加载读取Excel数据包

E2.2=read.xlsx('mvexer5.xlsx','E2.2')

E2.2 #读取mvexer5.xlsx表格E2.2数据

breaks = seq(0,3000,by = 300) #按组距为300编制频数表

breaks

hist(E2.2 $ X,breaks,col = 1:7,xlab = "工资(元)",ylab = "频数")#以工资x为横轴，频数y为纵轴，将数据划分为0-3000并以300为度量，绘制7列的彩色直方图

hist(E2.2 $ X ,breaks,freq = F,col = 1:7,xlab = "工资(元)",ylab = "频率")

Cumsum <- cumsum(E2.2 $ X)

cumsum

M <- seq(0,96000,by = 3000)

hist(Cumsum,M,freq = F,col = 1:12,las = 3,xlab = "工资(元)",ylab = "累积频率")#绘制出累计频率直方图

H = hist(E2.2 $ X,breaks = seq(900,3000,300))#正态概率图

names(H)

data.frame('组中距' = H $ mids,'频数' = H $ counts,'频率' = H $ density*300,'累积频率' = cumsum(H $ density*300))#

#第二章p57-2-3

library(openxlsx) #加载读取Excel数据包

E2.3=read.xlsx('mvexer5.xlsx','E2.3')

E2.3#读取mvexer5.xlsx表格E2.2数据

str(E2.3)

summary(E2.3)#对数据进行基本统计分析

#第三章P84-2.1

library(openxlsx)

E3.2 = read.xlsx('mvexer5.xlsx',sheet = 'E3.2',rowNames = TRUE)

#设定参数rowNames=TRUE，即可将第一列字符变量变成数据框的行名，供后期使用

E3.2

#在Excel文件中mvexer5.xlsx的表单d3.2中选择A1：E22，并复制到剪切板

dat = read.table("clipboard",header = T) #将剪切板数据读入数据框dat中

dat

#数据框标记转换函数

msa.X <- function(df){ #将数据框第一列设置为数据框行名

X = df[,-1] #删除数据框df的第一列并赋给X

rownames(X) = df[,1] #将df的第一列值赋给X的行名

X #返回新的数值数据框=return（X）

}

E3.2 = msa.X(dat)

E3.2

barplot(apply(E3.2,2,mean)) #按行作均值条形图

barplot(apply(E3.2,1,mean),las = 3) #修改横坐标标记

barplot(apply(E3.2,2,mean)) #按列作均值条图

barplot(apply(E3.2,2,median)) #按列作中位数条图

barplot(apply(E3.2,2,median),col = 1:8) #按列取色

boxplot(E3.2)#按列作箱尾图

boxplot(E3.2,horizontal = T) #箱尾图中图形按水平放置

#四p119-2-1

library(openxlsx) #加载读取Excel数据包

E4.1=read.table("clipboard",header = T)

E4.1

plot(x,y,main = '散点图',xlab = '每周加班时间（小时）',ylab = '每周签发的新保单数目（张）') #绘制散点图

cor(E4.1) #相关系数

lm4.1 <- lm(E4.1)

lm4.1

#估计值

square_sigma <- t(E4.1)/(10-1-1)#square_sigma <- t(x_hat - y)%*%(x_hat - y)/(10-1-1)

square_sigma

y = c(3.5,1,4,2,1,3,4.5,1.5,3,5)

x = c(825,215,1070,550,480,920,1350,325,670,1215)

y_hat <- 46.15 + 251.17*y

s <- t(y_hat - x)%*%(y_hat - x)/(10-1-1)

(summary(lm4.1) $ s)^2

#求方差分析

SR <- t(y_hat - mean(x))%*%(y_hat - mean(x))

ST <- t(x - mean(x))%*%(x - mean(x))

s_R <- SR/ST

s_R

(summary(lm4.1) $ r.squared)

anova(lm4.1)

#对回归方程作残差图分析

res <- residuals(lm4.1)

res

plot(y,res,main='残差散点图',xlab='每周签发的新保单数目',ylab='残差')

plot(lm4.1)

#计算1000张要加班的时间

lm4.1_1 <- lm(x ~ y,data = ee4.1)

predict(lm4.1_1,newdata = data.frame(y = 1000))

lm4.1_1 <- lm(y ~ x,data = ee4.1)

predict(lm4.1_1,newdata = data.frame(x = 1000))

#四p119-2-2

library(openxlsx)

E4.2 = read.xlsx('mvexer5.xlsx',sheet = 'E4.2',rowNames = T)

(lm4.2 = lm(y ~ x1 + x2,data = E4.2)) #显示多元线性回归模型

物种数据样本变量曲线

# 上一篇：在C语言中能否直接给指针指向的数据赋值？为什么？

# 下一篇：go语言json处理

推荐阅读

热门文章

最新发布

标签列表

R语言|绘制物种累计曲线

给您推荐相同类型的内容：