统计学家通常将缺失数据分为三类。它们都用概率术语进行描述,但思想都非常直观。我们将用sleep研究中对做梦时长的测量(有12个动物有缺失值)来依次阐述三种类型。
在R中, NA代表缺失值, NA是不可用,not available的简称,用来存储缺失信息。这里缺失值NA表示没有,但注意没有并不一 定就是0 , NA是不知道是多少,也能是0 ,也可能是任何值,缺失值和值为零是完全不同的。
1.用NA remove条件语句即可,例如求和公式中添加na.rm=TRUE就可以把缺失值去除,向量个数也对应减少。
如果数据集中包含NA,那么所有的计算都会有问题。发现值为NA时,我们再使用 na.rm 进行处理,这样的操作是滞后的,所以需要在处理数据之前就知道数据集中是否包含了缺失值。R语言提供了 is.na() 来进行逻辑测试,如果数据集中含NA值,对应位置返回TRUE,其余位置返回FALSE。
2. na.rm 只是函数中的一个参数,如果想去掉数据集中的这些缺失值,生成一个没有缺失值的数据集,这时可以使用 na.omit 函数
处理完之后可以输入length来观察数据集omit函数处理前后的行数变化,并可以从中获得删除了多少行包含NA的数据
1、缺失数据NaN,代表不可能的值
2、Inf表示无穷,分为正无穷 Inf 和负无穷 -Inf ,代表无穷大或者无穷小。
1、NA是存在的值,但是不知道是多少
2、NaN是不存在的
3、Inf存在,是无无穷大后者无穷小,但是表示不可能的值。
获取表达矩阵,处理TCGA的count数据,1表示为行。
导入数据
加 ENTREZID列,用于富集分析(symbol转entrezid,然后inner_join)
转化空格为NA
用花花的专属TCGA包,ID进行转换
把空着的值改为NA
以病人为中心,表达矩阵按病人ID去重复
去除重复
TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html
stringr::str_replace_all()
str_detect(colnames(exp),"TCGA-W5-AA2R")