GC-MS数据分析 R语言erah包调用

Python010

GC-MS数据分析 R语言erah包调用,第1张

erah官方文档: https://cran.r-project.org/web/packages/erah/vignettes/eRahManual.pdf

erah包的输入格式必须是cdf或者mzXML,cdf都是仪器导出,mzXML可以通过转换工具得到。本次实验数据.D格式通过转换工具proteowizard的MSConvert转为mzXML格式,首次采用的默认参数。

下图截取mzXML格式数据一部分

mzXML包含了一次实验中所有的分子片段的质谱图,并且包含了一些实验的基本数据.其核心数据是峰谱图,<peaks>标签内的一段很长的数据就是峰谱数据,其本身是荷质比与强度的Key-Value键值对,是经过压缩之后的数据。peaks标签里面会指定压缩的float数据精度是多少(32位或者64位),压缩方式是什么(一般是zlib).只要按照这种规格解码就可以查看到真实的离子质荷比与丰度的相关数据。

转换之后的数据每一类放在一个文件夹,按文档说明进行预处理。

以下是翻译的部分官方文档函数

一般地,如果你已知一个连续随机变量X的cdf F_X(x)(=P(X<=x))的话,那么F^(-1)(U)(F^(-1)为F的反函数)就符合这个分布(U为(0,1)上的均匀分布),反之亦然。证明很简单,就是直接套定义。

所以你可以写出来F^(-1)这个函数(比如说自定义函数名为FInverse),然后生成随机数组:

randomSequence<-FInverse(runif(n))

对于指数分布来说,

FInverse<-function(p,lambda=1){

-log(1-p)/lambda

}

离散随机变量类似吧。。。

当然,前提是你能写出来F^(-1)。。。(所以我老师说这个方法没啥用。。。)有的分布不好写F^(-1),但是有一些比较巧妙的办法(比如正态分布),这种应该就只能具体问题具体分析了。

r语言中qt函数是分位数函数的自由度

r提供工具来计算累计分布函数p(cummulative distribution function CDF),概率密度函数d和分位数函数q,另外在各种概率分布前加r表示产生随机序列。

R语言的特点

R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:

1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。

2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如SPSS、SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。