R语言 -- 寻找差异甲基化区域(DMR)-- DSS 包

Python023

R语言 -- 寻找差异甲基化区域(DMR)-- DSS 包,第1张

最好的文档其实还是官方文档。。。 http://bioconductor.org/packages/release/bioc/vignettes/DSS/inst/doc/DSS.html#3_Using_DSS_for_BS-seq_differential_methylation_analysis

有一个步骤简直太慢了,所以等的时候顺便简单记录一下~

适用于各种甲基化测序(WGBS、RRBS、TBS、芯片等)

上游分析略( 请参考 ),我是用的是 BSMAP + MethylDackel extract 流程,最终得到甲基化bedGraph文件:

第五列:甲基化reads数,第六列:未甲基化reads数。

sourceFolder :含有所有样本CpG.bedGraph文件的文件夹

Normal_B、GDM_B: 两组样本的 ID

因为我的分组有四组,因此还要把这次需要分析的两组给挑出来

下一步的构建对象需要提供包含所有样本甲基化信息的列表,因此使用lapply可方便获得

每个样本的甲基化数据格式为:

N 为 总reads数,X 为甲基化的reads数,因此需要转化一下

WGBS数据需要 smoothing = TRUE ,RRBS等测序方式官方建议也最好加上,虽然对结果影响不大:

如果提供的数据列名不是 chr pos N X 则会报以下错误:

注释结果可直接用于各种分析~

大力感谢: 使用DSS包多种方式检验差异甲基化信号区域

每个样本由416个位点来描述,也就是416个变量,或叫416个维度。咱们生活的空间是3维的啊,如果要精确描述这132个样本的位置,就是建一个416维的空间把它们定位,这是很不现实的。所以要对它进行降维处理之后再观察。

主成分分析(PCA)就是常用的一种降维方法,提取出这么多变量中对样本影响最大的成分。但它不是挑选出某几个变量,而是根据它们的方差贡献,经过线性变换,得到新的变量,即“主成分”。