火山图基因差异表达怎么制作'r语言

2023-02-26 15:28:02Python011

火山图基因差异表达怎么制作'r语言,第1张

今天就先来聊聊如何看差异表达基因数据，火山图，聚类图又怎么看。1差异基因筛选方法那差异基因是如何筛选出来的呢？差异基因的筛选方法有很多，包括倍数法、T检验、F检验及SAM等。

下面简单介绍一下GCBI上用的倍数法和SAM法。

倍数法适用于没有生物学重复的样本，其计算基因在两个条件下表达水平的比值，确定比值的阈值，将绝对值大于此阈值的基因判断为差异基因。

SAM算法适用于有生物学重复的样本，通过对分母增加一个常量 T 检验过程减小了假阳性发生的概率。文献中报道，相较于其他算法，SAM算法更为稳定，筛选出的结果也更为准确。2差异基因数据解读经过合适的差异基因方法筛选出的差异基因，结果一般分为两部分，数据+图形。

数据结果展示如下图所示（两分组）众多参数中，重点看三个。p-value或q-value没有做生物学重复请跳过这一步。

p-value或q-value是统计学检验变量，代表差异显著性，一般p-value或q-value小于0.05代表具有显著性差异，但可根据具体情况适当调整。

因为p-value或q-value衡量地是某个基因假阳性的概率，如果p-value或q-value越低，那么挑选该基因出现假阳性的概率就越低，可验证性就越高。

两者具体的计算方法具体如下：那p-value、q-value同时存在时看哪个呢？

SAM法只有q-value。当两者同时存在时，可根据具体情况具体分析。

差异筛选是一个典型的多重假设检验过程，对于多重假设检验，单次检验中差异显著基因的假阳性率(p-value较小)可能会较大，而q-value和FDR值较常见的BH校正方法得到的FDR值而言，改进了其对假阳性估计的保守性。

即q-value相比于p-value更加严格，当差异基因结果较少时，可以退而求其次看p-value。Fold ChangeFold Change表示实验组比上对照组的差异表达倍数，一般表达相差2倍以上是有意义的，放宽要求1.5倍或者1.2倍也可以接受。

看表达倍数的同时还需结合基因表达丰度，信号值太低的基因会在后续的验证实验中检测不到。3差异基因图表解读在差异结果的图形展示结果中，主要是火山图和聚类图。火山图火山图只针对两分组且有生物学重复的情况。

如何看火山图呢？火山图可反映总体基因的表达情况，横坐标代表log2（Fold Change）,纵坐标表示-log10（P值），每个点代表一个基因，颜色用以区分基因是否差异表达，图中橙色的点代表差异表达基因，蓝色的点代表没有差异表达的基因。聚类图聚类图可以衡量样本或基因之间表达的相似性。

如上图所示的聚类图中，横坐标代表样本聚类，一列代表一个样本，聚类基于样本间基因表达的相似性，样本间基因表达越接近，靠的越近，以此类推。

纵坐标代表基因聚类，一行代表一个基因，聚类基于基因在样本中表达的相似性，基因在样本中表达越接近，靠的越近，以此类推。

色阶代表基因表达丰度，越红代表上调得越明显，越绿代表下调得越明显。

如何做聚类图请戳往期推送做个聚类图只需1分钟

差异基因有了，如何挑选潜在基因进行实验验证呢？

关键还在于感兴趣点在哪了。粗略的看，可以先看KEGG或者GO功能分类，看差异基因具体富集在哪些通路或功能。

比如关注的是细胞内酸合成关键酶，可以重点看酸合成和碳流相关通路。具体如何看KEGG或者GO功能分类，请听下回分解。

《R语言4.0.4软件》百度网盘资源免费下载:

链接: https://pan.baidu.com/s/160twe4ScMvIbGm2TI_sjHw

?pwd=3ts7 提取码: 3ts7

R语言4.0.4是一款专业的统计建模软件，与其它建模软件不同的是这款软件完全免费、开源，所以深受大家的青睐。R软件拥有数据存储和处理系统；数组运算工具（其向量、矩阵运算方面功能尤其强大）；完整连贯的统计分析工具；优秀的统计制图等多种功能，主要用于统计分析、绘图、数据挖掘。标准的安装文件身自身就带有许多模块和内嵌统计函数，安装好后可以直接实现许多常用的统计功能。

原本，我并无写这一稿件的想法。主要原因有二：

如果要找合理解释，那么针对第一点，就是每天仍然有大量新接触生信数据分析的朋友；针对第二点，......在前两天我推的文稿《零基础快速完成基因功能注释 / GO / KEGG / PFAM...》中，评论区答应了下，阅读过5000，那就写一写富集分析。于是，如果不写，总是不对。如果要写，只能现在写。毕竟有些事情，现在不做，以后真的不会做。

对于这一块，完全陌生的朋友，尤其是不少生物学背景朋友，有必要温习一下数理统计基础。这一稿件只做原理最简单的但使用最广泛其速度最快的Over-Represence Analysis模式的富集分析讲演。其他模式，不涉及。

回到主题，先举个经典的抽球例子：

小红小绿小蓝三个人自称有超能力，可以用手摸摸球就分辨出黑球白球，于是我们找来黑袋子，放100个球，其中20个白球80个黑球，让三人分别无放回地抽取。

小红随机抽出来10个球，其中2个白球8个黑球，情况即，

抽球中白球比例与背景白球比例完全一致，说明小红抽球结果随机。

球放回去，小绿来抽球，抽出来的10个球，其中3个白球7个黑球，情况即，

这是经典的抽球案例，抽取到的白球个数的概率分布为超几何分布。基于此，我们可以简单计算抽取到比小绿抽取到球个数（或更多即更极端）的概率如何，在 R语言中计算，即

而对于小蓝的情况，那么概率如何？

在 TBtools 中也可以计算，只是写法有点区别

可以看到，尽管这只是一次抽球，小绿抽球中白球比例（或更极端情况）出现的概率是31.88%+，还是挺高的，于是我们有较高的把握说，小绿嘛，只是走了狗屎运。相反，小蓝抽球中白球比例或更极端情况出现的概率几乎为 0 ，我们几乎没啥把握说，小蓝走狗屎运....换句话说，我们有理由相信，或许小蓝真有抽白球的超能力.....

说了这么多，那么跟基因集合富集分析有啥关系？....基因集合功能富集分析。那么我们就需要有一个基因集合（如差异表达基因集合或ChIP-seq的Peaks或GWAS定位的系列区间），还有一个功能标签（如生长素信号转导相关）。于是黑白球案例可以简单调整一下。假定现在这个物种一共有100个基因，其中20个基因与生长素信号转导相关，80个没有注释到与生长素信号转导相关（换句话说，约等于无关），我们做了对植株做了处理，和CK分别测定转录表达谱，通过差异表达分析，鉴定到10个差异表达基因，其中2个与生长素信号转导相关，而另外8个则没注释到生长素信号转导相关，简单画一下，即

好，剩下的两个就不替换了。整体上，ORA模式的富集分析，本身就是经典的抽球案例，感兴趣的自行替换就可以了。

基本原理，相信都搞清楚了。不过还是有两三点需要注意：

具体如何做物种所有基因的背景注释，请参考前述推文《零基础快速完成基因功能注释 / GO / KEGG / PFAM...》。

首先，打开 TBtools GO 富集分析界面

整体如上，一共三个文件：

具体示例如下

点击 Start ，随后等待即可。完成时会有弹窗提示。查看输出文件

（写到这里，突然觉得这些都没啥意思，不知为何....就不详细写了，大伙自己看看列名，猜猜吧）

很多时候，我们会选择，筛选第一列，只看 Biological Process。一般这些与我们的生物学认知会贴近一些。

基因集合功能富集分析，是一个常常被谈起的话题，甚至近期都有不少新方法或算法被提出。感兴趣的朋友可以去了解。这份教程，只与大伙说最简单，但也是使用最为广泛的一种富集分析模式。无论是不是 TBtools 用户，理论上来说，都可以轻松理解并掌握，从原理到实践。

写到一半，其实我已经不想写了。原因非常简单，这也是为什么在我之前，并没有一个人写出来 TBtools 类似的工具。不是写不了，而是不想写。有时候，随着能力增长和知识积累，往往不再愿意做一些简单的事情。或许这还涉及到年龄的增长，角色的转变，责任的变化....云云。

小时候，我以为写 TBtools 玩玩；