绘制差异基因kegg注释图

Python014

绘制差异基因kegg注释图,第1张

“差异基因kegg注释图”是转录组分析结果的重要组成部分,能够帮助大家了解差异基因分属于哪些代谢通路,文章中如果能够插入下面这类图来说明样品间的差异,一定会为你的文章增色不少。

下面给大家介绍一下如何在Windows下对差异基因进行kegg注释。

一、输入数据准备:

首先要准备的是各比较组(比如CK1比上Treat1)的差异基因列表,一般公司做完的标准分析结果里已经包含这部分内容了,通常在“DEG_Analysis”文件夹里,我们用到的信息是“ 基因ID ”和“ regulated ”(up代表上调,down代表下调)两列,如下图所示的第一列和最后一列:

接下来需要添加一列,将“regulated”里的“up”标记成“red”,“down”标记成“green”,这样后面做出来的kegg注释图里上调基因就会显示为红色,下调基因显示为绿色。具体方法是在第三列插入一个“ if ”函数,当第二列值为“up”时输出“red”,否则输出“green”,参数设置详见下图:

这样C2单元格就会显示为“red”,双击该单元格右下角,这样C列就都按上面的规则填充好了,如下图所示:

二、在作图网站填入数据:

打开网站:https://www.genome.jp/kegg/tool/map_pathway2.html

按照下方设置好参数,并将第一步准备好的Excel表里的第一和第三列数据粘贴进去(注意:Excel表的 第一行 和 第二列 都不用粘贴),点击左下角的“exec”按钮开始运算。根据您提交的基因数量,等待一小段时间结果就出来了:

注释到的代谢通路结果,按数量排序:

点击其中的代谢通路链接,就能够看出该代谢通路中哪些基因上调、哪些基因下调了。

好的,这样差异基因的kegg注释就完成了。掌握之后,便可在几分钟之内做任意差异基因列表的kegg注释图而不用找公司了!

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实操课程 、 基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析

8.其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。

我们输入的数据包含 gene ID 和 vector(单样本)部分,这里的 gene ID 是一个通用概念,可以是基因、转录本、酶或蛋白质。这里的 vector 可以是样本的表达量、倍数变化, p-value, 组蛋白修饰数据等可测量的属性。下面我们以一个 RNA-seq 差异分析后的数据为例,来学习 pathview 的用法。

在 KEGG PATHWAY Database 查询,例如查询小鼠的"Cell Cycle"这条通路:

得到通路 ID 为"04110",物种为"mmu"

我们通过指定 gene.data pathway.id 来观察我们数据里的基因在信号通路“Pathways in cancer”上的表达变化:

相比于原始的 KEGG 图,我们可以使用 graphviz 产生一个新的布局,并且输出 PDF 格式的文件:

以下是输出结果图

如果我们想要运行的更快一点,并且不介意输出图片的大小,我们可以分图层,用 same.layer = F 将节点颜色和标签添加到另一个图层中,并且原来的 KEGG 基因标签会变成官方的 gene symbols :

在此基础上,修改 kegg.native = FALSE ,我们就可以得到一个主图与图例分成两个页面的 PDF 文件

在原始的 KEGG 视图中,一个基因节点可能代表具有相似或者冗余功能的基因/蛋白质,我们可以将这种包含多个基因的节点拆分成独立的节点,这样可以更好的从基因层面而不是节点层面来查看数据。同时也可以通过汇总基因数据来可视化节点数据:

为了画面有更好的清晰度和可读性,默认不分裂节点,也不单独标记每个成员基因。

代谢途径中,除了基因节点还有化合物节点,我们可以尝试利用代谢途径( Propanoate metabolism)整合基因数据和化合物数据。这里的化合物数据包括代谢物、药物,对它们的测量和它们的属性。在这里我们仍然使用之前 RNA-seq 差异分析的数据作为 gene data,然后,我们生成模拟化合物或代谢组数据,并加载适当的化合物 ID 类型以进行演示:

结果如下

pathview 可以集成并将多个样本或状态绘制成一个图,我们可以使用多个重复样本模拟化合物数据:

结果如下,可以看到基因节点和化合物节点被分成多份,对应不同的样本:

我们可以根据将化合物数据分为绝对值大于 5 和小于 5 两类,构成一组离散型数据:

结果如下:

Pathview 包中的主函数是 pathview() ,有着各种参数,是我们用到最多的函数。在这篇文章中,我们介绍了 pathview()的比较常见的用法,包括包安装,数据准备,以及其他有用的特性。我们也可以使用 pathxiew 的网页版,地址是 https://pathview.uncc.edu/ 。此外,Pathview 在数据整合方面有很强大的功能,包含 4800 个物种,能处理的数据属性和格式包括 连续/离散数据、矩阵/矢量、单个/多个样本数据 ,包中还具有强大的 ID 转换功能,这些都值得我们进一步探索。

生活很好,有你更好