R语言操作——TCGA数据处理

Python015

R语言操作——TCGA数据处理,第1张

获取表达矩阵,处理TCGA的count数据,1表示为行。

导入数据

加 ENTREZID列,用于富集分析(symbol转entrezid,然后inner_join)

转化空格为NA

用花花的专属TCGA包,ID进行转换

把空着的值改为NA

以病人为中心,表达矩阵按病人ID去重复

去除重复

TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html

stringr::str_replace_all()

str_detect(colnames(exp),"TCGA-W5-AA2R")

转自“ 医学统计园 ”微信公众号。

读入clinical.json文件

计算文件长度n,在这里n为348

初始化变量

利用一个for循环由json文件中提取信息

将提取的信息做成一个dataFrame

(供自己记录)

adj位置调整

ask询问

bg背景

bty图形边框风格,o四边都有边框,l左边和下边,7右边和上边,c上边、左边和下边,

cex设置点和字符的大小,axis坐标轴上标签字的大小,lab坐标轴上命名的大小,main标题的大小,sub副标题的大小,col颜色。

family字体的风格,

fg前景颜色

font图片字体的风格,字体,粗体,斜体

las坐标轴的运行关系,坐标轴上的字和坐标轴的关系,字会转

lend线的两端的样式

lty线的形式,直线、虚线

lwd线的粗细

Mai、mar、mex画布的大小

Mfcol、mfrow是来切分画布的,放几个fig在画布中,两个功能一样

pch是用来定义点的形状的,有25个形状

srt用来定义图中的文字的角度

Txk坐标轴上的刻度的大小,刻度的字体大小

Xaxt/yaxt不想要坐标轴的标签

Xlog/ylog是x轴和y轴设置为log值

Xpd把绘图区设置为整个画布

Fig表示图形的四个角的位置

New是在图中生成图