r语言如何数据分析

Python022

r语言如何数据分析,第1张

r语言数据分析是查看数据的结构、类型,数据处理。根据查询相关资料信息显示:R语言是一个开源、跨平台的科学计算和统计分析软件包,具有丰富多样、强大的的统计功能和数据分析功能,数据可视化可以绘制直方图、箱型图、小提琴图等展示分数的分布情况可以通过散点图和线性拟合来展示分数和年龄之间的关系。

统计学家通常将缺失数据分为三类。它们都用概率术语进行描述,但思想都非常直观。我们将用sleep研究中对做梦时长的测量(有12个动物有缺失值)来依次阐述三种类型。

在R中, NA代表缺失值, NA是不可用,not available的简称,用来存储缺失信息。这里缺失值NA表示没有,但注意没有并不一 定就是0 , NA是不知道是多少,也能是0 ,也可能是任何值,缺失值和值为零是完全不同的。

1.用NA remove条件语句即可,例如求和公式中添加na.rm=TRUE就可以把缺失值去除,向量个数也对应减少。

如果数据集中包含NA,那么所有的计算都会有问题。发现值为NA时,我们再使用 na.rm 进行处理,这样的操作是滞后的,所以需要在处理数据之前就知道数据集中是否包含了缺失值。R语言提供了 is.na() 来进行逻辑测试,如果数据集中含NA值,对应位置返回TRUE,其余位置返回FALSE。

2. na.rm 只是函数中的一个参数,如果想去掉数据集中的这些缺失值,生成一个没有缺失值的数据集,这时可以使用 na.omit 函数

处理完之后可以输入length来观察数据集omit函数处理前后的行数变化,并可以从中获得删除了多少行包含NA的数据

1、缺失数据NaN,代表不可能的值

2、Inf表示无穷,分为正无穷 Inf 和负无穷 -Inf ,代表无穷大或者无穷小

1、NA是存在的值,但是不知道是多少

2、NaN是不存在的

3、Inf存在,是无无穷大后者无穷小,但是表示不可能的值。

获取表达矩阵,处理TCGA的count数据,1表示为行。

导入数据

加 ENTREZID列,用于富集分析(symbol转entrezid,然后inner_join)

转化空格为NA

用花花的专属TCGA包,ID进行转换

把空着的值改为NA

以病人为中心,表达矩阵按病人ID去重复

去除重复

TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html

stringr::str_replace_all()

str_detect(colnames(exp),"TCGA-W5-AA2R")