R语言 -- 寻找差异甲基化区域(DMR)-- DSS 包

Python012

R语言 -- 寻找差异甲基化区域(DMR)-- DSS 包,第1张

最好的文档其实还是官方文档。。。 http://bioconductor.org/packages/release/bioc/vignettes/DSS/inst/doc/DSS.html#3_Using_DSS_for_BS-seq_differential_methylation_analysis

有一个步骤简直太慢了,所以等的时候顺便简单记录一下~

适用于各种甲基化测序(WGBS、RRBS、TBS、芯片等)

上游分析略( 请参考 ),我是用的是 BSMAP + MethylDackel extract 流程,最终得到甲基化bedGraph文件:

第五列:甲基化reads数,第六列:未甲基化reads数。

sourceFolder :含有所有样本CpG.bedGraph文件的文件夹

Normal_B、GDM_B: 两组样本的 ID

因为我的分组有四组,因此还要把这次需要分析的两组给挑出来

下一步的构建对象需要提供包含所有样本甲基化信息的列表,因此使用lapply可方便获得

每个样本的甲基化数据格式为:

N 为 总reads数,X 为甲基化的reads数,因此需要转化一下

WGBS数据需要 smoothing = TRUE ,RRBS等测序方式官方建议也最好加上,虽然对结果影响不大:

如果提供的数据列名不是 chr pos N X 则会报以下错误:

注释结果可直接用于各种分析~

大力感谢: 使用DSS包多种方式检验差异甲基化信号区域

运行结果如下:

如此根据染色体序号循环即可得到保存整个基因组的CpG位点的RData。

BSgenome.Hsapiens.UCSC.hg19 包是基于IRanges,GenomeInfoDb,GenomicRanges, Biostrings,XVector这些包所所构建的。

Biostrings 是 BSgenome.Hsapiens.UCSC.hg19 的一个基础包,其中的 matchPattern() 函数用于根据设定的 pattern 寻找目标 string 的起始和结束位点。结合 BSgenome.Hsapiens.UCSC.hg19 包的基因组数据可用于建立一些数据集,如CpG位点data;或保存其他的定序列的位点信息。

这一篇华盛顿大学医学院病理学及遗传学系于2013年发表在《The Journal of Molecular Diagnostics》杂志的一篇经典文章,名为《临床FFPE样品与新鲜冰冻组织样品NGS测序数据的比较》。该文章对16个配对FFPE和冰冻组织肺腺癌样本的NGS测序结果进行了比较,揭示了福尔马林固定对NGS数据的影响。 与冰冻组织相比,FFPE样本具有:1、文库插入片段更小 2、覆盖变化更大 3、在CpG区域发生C->T转换的概率增加,表明了DNA甲基化和福尔马林固定之间的影响。但是,在两种不同类型样品之间,错误发生率、文库复杂性、富集表现、覆盖深度统计之间没有明显的差异。两种类型样品之间的一致性大于99.99%,单核苷酸变异之间的一致性大于96.8%,NGS数据的准确性大于98%。本项研究表明,FFPE样本的常规处理步骤对NGS数据的影响微小、FFPE样本可以作为可靠的样本类型用于临床检测。

在实施NGS临床检测时,需要对实验过程中的各种变量进行验证,包括不同标本的类型。对于大多数的分子实验,最优的标本类型就是新鲜组织(例如,加入EDTA抗凝剂的血液或者生理盐水浸泡的外科手术剥离的新鲜组织)。因为在对新鲜组织处理过程中,会对标本DNA完整性的破坏。但是,由于物流以及存储问题,临床病理实验室的新鲜以及冰冻新鲜组织标本还是比较稀少的。大多数来自外科病理实验室的标本是以福尔马林固定、石蜡包埋(FFPE)的形式存在。FFPE样本的优势明显,比较容易储存,但是在使用福尔马林固定过程中,同样会造成DNA的损伤。甲醛与DNA和蛋白质发生反应,形成不稳定的羟甲基中间体。从而产生DNA-DNA, DNA-RNA和DNA -蛋白质分子,这些分子通过亚甲基桥共价连接。甲醛也产生氧化和脱氨反应和形成环碱衍生物。这些化学修饰有可能通过抑制DNA的酶反应或直接导致单基变化和其他序列畸变来影响分子检测实验结果。此外,亚甲基交联可能会导致DNA长度超过100 - 200 bp的序列分析出现问题。

这篇文章比较了FFPE样本和冰冻组织样本NGS的测序深度,用于检测常规组织处理和存储的潜在影响。对16个配对的FFPE和冰冻组织样本(肺腺癌样本),进行了27个癌症相关基因捕获建库,采用Illumina测序平台进行测序。配对设计可以减少突变类型和突变频率等肿瘤特异性差异,减少数据比较的差异混淆。此外,本研究还探索了生理盐水孵育时间、固定时间等分析前处理变量对NGS数据的影响。

对于每组配对样本,文章对各个方面都进行分析,包括原始NDA质量、原始测序结果、测序质量、read比对、文库复杂性、原始错误率、碱基一致性。最终结果显示,因为组织固定引起的DNA损伤在NGS数据中是明显存在的,但是FFPE样本和冰冻样本之间差异是十分微小的,不会对分子诊断的结果造成影响。此外,这篇文章还证明,对于低质量的DNA样品,增加固定时间(缺血时间)和过度的福尔马林固定仍可以产生可靠的NGS结果。

如F1.A 所示,从Siteman癌症中心选取16例肺腺癌样品,分别进行冰冻和FFPE固定等常规的处理,采用相同DNA提取方法。8例新鲜的组织样本采用Affymetrix进行芯片检测。剩余的新鲜组织和FFPE样品进行27基因的探针捕获、建库操作,经过8轮PCR扩增之后,采用Illumina HiSeq2000 进行PE101测序。然后,进行后续的生物信息分析过程。

如F1.B 所示,:为了评估分析前因素对NGS的影响,实验还对新鲜组织进行延长福尔马林固定和延长缺血时间处理。从这些样本中提取DNA与新鲜的组织样本的DNA进行了比较。

1、产生测序数据和质量值(Illumina Casava软件)

2、比对至hg19基因组(Novoalign软件)

3、reads去重(Picard软件)

4、质量值参数包括错误率、未比对碱基数、比对结果、覆盖率统计(Samtools和Bedtools软件)

5、变异检测(GATK 流程默认参数)

6、统计碱基转换和颠换差异及一致性(自写脚本)

7、画图统计分析(R语言)

冷冻组织和FFPE样本测序距离原始采样的时间平均为8.1年(7-12年)。

1、如Table1 所示,冷冻样本和FFPE样本在Mapped reads、Mapped on-target reads 、Properly mapped reads、Unique reads等参数相差不大,这表明两类样本文库在数据可用比例和复杂度上比较接近。

2、如Tabel1 和 Figure 2所示,由于福尔马林固定会造成DNA的损害,FFPE样本(222bp)文库插入片段大小显著小于冷冻样品(177bp),并且文库片段大小的分布更加紧凑。

3、如Table1 所示,虽然FFPE样本中的Unaligned bases比例有所降低,但是表示测序错误率的Discrepancies参数依然比较接近。表明福尔马林固定造成的DNA损伤并没有导致超出测序平台背景的错误序列显著增加。

注:Table1中 Discrepancies(差异)被定义为一条比对至参考基因组上read中,替换、插入、缺失碱基所占的比例,它被用于评估整体错误率,因为该值要显著大于真实的突变比例

1、如Figure4 所示,在覆盖深度大于50X的306,336个位点中,FFPE样本与冷冻样本位点一致性大于99.99%;

2、FFPE样本与冷冻样本位点共有的SNVs个数为4281个(97%),FFPE独有的变异为70个(1.8%),冷冻样本独有的变为56个(1.3%)。对126个不一致位点分析发现,64个突变位点(51%)在两种类型样本中都有至少10条reads支持,只是变异检测软件没有检出,不是因为DNA损伤,人工产生的序列。两种类型样本中所有INDEL突变位点的检出100%一致,结果见补充材料;

3、8个冷冻样本进行了芯片SNVs检测,如Figure4 所示,所有的芯片突变结果都出现在NGS突变结果中

1、之前有文献报导福尔马林固定会引起DNA序列的变化,导致转换变异的增加,本部分对固定引起的突变进行了深入探索。为了排除测序错误的影响,只有比对质量值大于20的高质量差异突变才被纳入分析。

2、通过分析120亿个高质量的碱基位点,FFPE样本中Discrepancies(差异)比例为0.106%,冷冻样本的Discrepancies(差异)比例为0.112%,两者之间并无显著统计学差异。结果表明,福尔马林固定引起的DNA损伤对高质量变异的影响是极小的

3、如Figure5A所示,通过分析Discrepancies(差异)类型发现,FFPE样本中转换(嘌呤和嘌呤之间的替换,或嘧啶和嘧啶之间的替换)的比例要高于冷冻样本(t检验有显著差异),为39% VS 31%;尽管大多数高质量差异在FFPE样本和冷冻样本之间没有明显差异,但与冷冻组织相比,FFPE组织中的C ->T转换显著增加,互补链的G ->A 之间的转换也显著增加,如图FigureB所示。

4、如Figure6所示,FFPE样品与冷冻样品之间最大不同是CG ->TG 双核苷酸的转换(具有显著统计差异)。由于CpG二核苷酸上,70%的胞嘧啶残基被甲基化,在复制酶的作用下5甲基胞嘧啶(C)也会脱氨转化为胸腺嘧啶(T)。这说明福尔马林固定会增加脱氨反应,引起C ->T转换,特别是甲基化胞嘧啶更容易受到影响。

5、尽管有以上这些差异,通过对所有碱基变换的核查发现,两种类型中所有高质量差异都比较是罕见的,FFPE固定不影响整体高质量突变的检测。

1、多种前处理因素会对下游的FFPE样品测序分析产生影响,两个比较重要的前处理因素为缺血时间(样品收集与福尔马林浸泡之前的时间)和固定时间(福尔马林浸泡的时间),这两个因素通常会对下游的灵敏度和重复性造成不利的影响。

2、如图Figure 7A所示,随着缺血时间和固定时间的延长,Target区域的覆盖比例有轻微的变化,Unique reads(双端reads具有不同的起始位置)的比例会明显的减少;如图Figure 7B所示,随着缺血时间和固定时间的延长,较高覆盖水平(>500X)的覆盖比例会有明显的下降

3、如图Figure 7CD所示,随着缺血时间和固定时间的延长,与新鲜样品相比,FFPE样品的覆盖深度变化越来越大,SNVs的检测能力越来越差(核查后发现是因为覆盖深度降低到50X以下),FFPE样本中C ->T的变异有轻微的增加。

[1] Spencer D H , Sehn J K , Abel H J , et al. Comparison of Clinical Targeted Next-Generation Sequence Data from Formalin-Fixed and Fresh-Frozen Tissue Specimens - ScienceDirect[J]. The Journal of Molecular Diagnostics, 2013, 15( 5):623-633.