怎么用r语言进行dna序列分析

Python086

怎么用r语言进行dna序列分析,第1张

有现成的包:matchprobes包 里面有个函数basecontent(seq)计算4中碱基每种的含量;

自己做的话:

#List是你的序列

unlist(strsplit(List,""))->sep.letter#把每个字母都单独分开

#遍历所有字母

count_a=0count_g=0count_t=0count_c=0

for(i in 1:length(sep.letter)){

if(sep.letter[i]=="a"){count_a=count_a+1}

if(sep.letter[i]=="g"){count_g=count_g+1}

.........................

}

这个是自动适应参数估计的结果。

模型估计为ARIMA(4,0,2),即ARMA(4,2)

系数为:

ar1 ar2 ar3 ar4 ma1 ma2

-0.5505 0.2316 0.0880 -0.4325 -0.1944 -0.5977

s.e. 0.1657 0.1428 0.1402 0.1270 0.1766 0.1732

s.e.是系数的标准差,系数显著性要自己算,|系数/se| >1.96 即 95%的置信度

sigma^2 estimated 估计值方差

log likelihood 对数似然值

(这个不用解释了吧)

AIC=709.13 AICc=710.73 BIC=725.63

再就是下面一堆误差计算

ME Mean Error

RMSE Root Mean Squared Error

MAE Mean Absolute Error

MPE Mean Percentage Error

MAPE Mean Absolute Percentage

MASE Mean Absolute Scaled Error

假设有两组栅格数据,一组代表2019年中国每月降雨量,一组代表2019年中国每月植被叶面积指数(LAI)。想要得到中国月降水量与LAI的相关性分布,那么需要对两组栅格数据对应的栅格点进行逐栅格的相关性分析。

将降水数据导入栅格栈中,这个过程可以理解为将降水数据按时间顺序从上到下堆叠。同理,按相同的时间顺序将LAI数据堆叠。值得一提的是,stack()函数在堆叠栅格数据时是按文件名拼音和数字大小顺序自动堆叠的,具体规则可以亲自尝试。最后,将这两个栅格栈合并成一个。

对相关性分析函数稍作改变。

以上方法是可以推广的,线性回归函数lm()和相关性分析函数cor()的输入都可以是向量,因此只要函数支持向量输入,理论上讲都可以类比上述过程实现。但是如果函数只支持数据框输入,如gbm包中的函数gbm(),那就只能另辟蹊径了。