ENSG00000000003.13
ENSG00000000005.5
ENSG00000000419.11
ENSG00000000457.12
ENSG00000000460.15
ENSG00000000938.11
提示:
第一步:删除已存在变量和使用命令( stringsAsFactors = FALSE )以防止出错(R often uses a concept of factors to re-encode strings. This can be too early and too aggressive. Sometimes a string is just a string.To avoid problems delay re-encoding of strings by using stringsAsFactors = FALSE when creating data.frames.)
第二步:导入数据:
e1<-read.table("clipboard",header=T,sep=',')#读取剪切板的内容即其他地方复制后,直接使用该命令调取复制的内容。
或者直接新建.txt文档,将内容复制进去:
了解一下这个包的作用 >?org.Hs.eg.db
发现我们已有的信息ensembl_id,并且得知symbol(对象)这一列表示的是基因名,由此确定答题方向, 通过ensembl_id确定gene_id,再通过gene_id确定基因名 。
我们在g2e和我们已知的数据a的ensembl_id不一样,区别在于最后的版本号,我们已有数据有版本号,而得到的g2e没有版本号,所以先将其版本号去掉。
x,y:用于合并的两个数据框
by,by.x,by.y:指定依据哪些行合并数据框,默认值为相同列名的列.
all,all.x,all.y:指定x和y的行是否应该全在输出文件.
sort: by指定的列是否要排序.
suffixes: 指定除by外相同列名的后缀.
incomparables: 指定by中哪些单元不进行合并.
答案为:
在最后合并两个表格除了使用merge函数,还可以使用match函数
中间的失误:
提示:使用 http://www.cbioportal.org/index.do 定位数据集: http://www.cbioportal.org/datasets
打开 http://www.cbioportal.org/ ,操作如下:
得到另一种形式的图片,但是与网页制作的图片是一致的。
提示使用: http://www.oncolnc.org/
打开提示网址:
画出和网页一致的图(图片还需进一步查资料了解)
生存分析的基本了解: http://wemedia.ifeng.com/81829327/wemedia.shtml
如果 p 值小于阈值(0.05 或 0.01),则两组生存时间有显著差异。
R语言 cov(a)函数返回的结果Population、Income、Illiteracy、LifeExp、Murder 、HSGrad分别是数据集“a"里的变量名称啊,要知道是什么意思,你需要去查看数据说明。链接: http://www.bio-info-trainee.com/4387.html
airway数据集可视化,首先载入表达矩阵。
学习链接:
http://biotrainee.com/jmzeng/markdown/ggplot-in-R.html
https://github.com/jmzeng1314/5years/blob/master/learn-R/tasks/top50ggplot.Rmd
对RNAseq_expr挑选MAD值最大的100个基因的表达矩阵绘制热图,对RNAseq_expr进行主成分分析并且绘图、进行差异分析并且绘制火山图、(平均值VS变化倍数)图。
绘制其中一个差异基因在两个分组的表达量boxplot并且添加统计学显著性指标。
通过org.Hs.eg.db包拿到RNAseq_expr所有基因的染色体信息,绘制染色体的基因数量条形图,在上面染色体的基因数量条形图并列叠加差异基因数量条形图。
在oncolnc网页工具拿到CUL5基因在BRCA数据集的表达量及病人生存资料自行本地绘制生存分析图。
获取表格步骤
在xena网页工具拿到CUL5基因在BRCA数据集的表达量及病人的PAM50分类并且绘制分类的boxplot。
画图还是蛮有趣的!!!
更多学习资源:
生信技能树公益视频合辑
生信技能树账号
生信工程师入门最佳指南
生信技能树全球公益巡讲
招学徒
...
你的宣传能让数以万计的初学者找到他们的家,技能树平台一定不会辜负每一个热爱学习和分享的同道中人