R语言 -- 寻找差异甲基化区域(DMR)-- DSS 包

Python016

R语言 -- 寻找差异甲基化区域(DMR)-- DSS 包,第1张

最好的文档其实还是官方文档。。。 http://bioconductor.org/packages/release/bioc/vignettes/DSS/inst/doc/DSS.html#3_Using_DSS_for_BS-seq_differential_methylation_analysis

有一个步骤简直太慢了,所以等的时候顺便简单记录一下~

适用于各种甲基化测序(WGBS、RRBS、TBS、芯片等)

上游分析略( 请参考 ),我是用的是 BSMAP + MethylDackel extract 流程,最终得到甲基化bedGraph文件:

第五列:甲基化reads数,第六列:未甲基化reads数。

sourceFolder :含有所有样本CpG.bedGraph文件的文件夹

Normal_B、GDM_B: 两组样本的 ID

因为我的分组有四组,因此还要把这次需要分析的两组给挑出来

下一步的构建对象需要提供包含所有样本甲基化信息的列表,因此使用lapply可方便获得

每个样本的甲基化数据格式为:

N 为 总reads数,X 为甲基化的reads数,因此需要转化一下

WGBS数据需要 smoothing = TRUE ,RRBS等测序方式官方建议也最好加上,虽然对结果影响不大:

如果提供的数据列名不是 chr pos N X 则会报以下错误:

注释结果可直接用于各种分析~

大力感谢: 使用DSS包多种方式检验差异甲基化信号区域

热图(Heatmap):用颜色变化直观的表达数据之间差异的图,是对实验数据进行质制和差异数据的展现,是数据挖掘类文章的标配。

例如上图,每个小方格表示每个基因,其颜色表示该基因表达量大小,表达量越大颜色越深(红色为上调,蓝色为下调)。每行表示每个基因在不同样本中的表达量情况,每列表示每个样品中所有基因的表达量情况。上方树形图表示对来自不同实验分组的不同样品的聚类分析结果

本文是个人笔记,请谨慎付费[星球用户可免费看]。

我们在分析了差异表达数据之后,经常要进行热图的可视化展示。

热图(Heat map) 是一个以 颜色 变化来显示数据的 矩阵 。虽然“热图”是一个新兴的词汇,但是用明暗的矩阵来标示元素的方法已经有超过一世纪的历史了。

热图源自于展示数据的平面图像,较大的数字以小的深灰色、黑色方格呈现,而较小的数字则以较亮的方格标示。如Toussaint Loua在1873年就曾使用这样的手法来绘制对 巴黎 各区的社会学统计。 [1] 彼得·斯伊斯在1957年时进行 群集分析 时也透过置换矩阵的行和列的方法将更相似的值标示在一起。雅克·贝尔坦也曾用过类似的方法标示出 累积量表 的资料。而将 阶层式分群法 加入到矩阵中的概念则是由罗伯特·F·林于1973年创造,他利用多次印刷堆叠出的字符来表示不同程度的灰色,将每个字符大小则视为一像素。利兰·威尔金森则是于1994年开发出了第一个能生成高分辨率的矩阵的计算机程序—SYSTAT。

软件设计师科尔马克·金尼则在1991年时注册了热图这个商标用以形容一种描绘金融市场信息的平面图形, [2] 但是取得了金尼发明的公司在2003年时不小心使得这个商标失效了 [3]