R语言操作——TCGA数据处理

Python010

R语言操作——TCGA数据处理,第1张

获取表达矩阵,处理TCGA的count数据,1表示为行。

导入数据

加 ENTREZID列,用于富集分析(symbol转entrezid,然后inner_join)

转化空格为NA

用花花的专属TCGA包,ID进行转换

把空着的值改为NA

以病人为中心,表达矩阵按病人ID去重复

去除重复

TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html

stringr::str_replace_all()

str_detect(colnames(exp),"TCGA-W5-AA2R")

转自“ 医学统计园 ”微信公众号。

读入clinical.json文件

计算文件长度n,在这里n为348

初始化变量

利用一个for循环由json文件中提取信息

将提取的信息做成一个dataFrame