GO(Gene Ontology)

Python015

GO(Gene Ontology),第1张

Ontology 首先是出现于哲学领域的一个词汇,后来广泛用于计算机领域,发挥了很重要的作用,再后来这个概念被引入生物领域。

gene Ontology 是生物中Ontology中一个重要应用。go项目最初是由研究三种模式生物(果蝇、小鼠和酵母)基因组的研究者共同发起。是生物信息分析中很重要的一个方法

go是在生物领域应用非常广,可以帮助生物学家对基因产物进行准确的定义(功能、位置),节省时间。

因为在最开始的时候,生物学家们更多是专注于自己研究的物种/课题,而且每个生物学家对功能等的定义是存在差异的,导致不同实验室/物种不能实现直接的对接(比如A物种内的x基因的功能使用的是a这个词汇进行注释,而B物种内的x基因的功能却使用的是与a同义的词汇b进行注释,这种情况计算机无法识别),就像讲两种语言的人,无法直接进行语言交流。这种情况导致的问题是,出现了一种阻碍,让问题复杂化了。所以就有了Ontology在生物领域中的应用,实现“书同文”。

go定义了基因/基因产物的功能(通过术语)且定义了它们各自之间功能是怎样联系的(关系)。它组成了一个具有大量term的词汇库,并定义各种term之间的关系(is_a part_of R)。

GO通过三个方面的术语对基因/基因产物的功能进行描述:分子功能(molecular function) -由基因/基因产物行使的分子水平上的功能; 细胞组件(cellular component)-基因/基因产物产生功能时其在细胞结构上的位置;生物学过程(biological process)-在哪个生物学通路/生物过程发挥作用。

目前,GO 注释主要有两种方法:

(1)序列相似性比对(BLAST):例如blast2go(将blast结果转化为GO注释)

(2)结构域相似性比对(InterProScan)

blast2go的本地化教程:

在blast2go软件正确安装的情况下,使用blast2go进行go注释,出现无法得到注释结果的问题:

另外还有可能出错的原因是,blast2go无法识别blast高的版本号,当使用高版本的blast的时候,直接将版本号给修改为低版本的就行了,例如(BLASTX 2.2.25+)

GO 的图形是一个有向无环图

一直很好奇GO注释文件中的信息是如何得到的,终于在《The Gene Ontology Handbook》中找到了答案。

GO的原始文件可以分为两部分:ontology和association files。

该文件以obo格式储存,每个词条都以树状结构表示着和其他词条的关系,具体内容可以从 GO网站 中找到,其中的元素和逻辑关系可以简单参考上几篇文章。主要编辑工具有go-basic、go和go-plus三个。

这部分文件主要是关于GO词条的具体功能信息,以及相关的支撑信息,以GAF或GPAD格式储存。

目前对基因的注释主要有两种手段:人工注释和机器注释。

人工注释由专业人士(biocurators)通过阅读,提取和转化文献中的实验结果来对基因进行注释。人工注释费时费力,但他们的努力非常重要,因为人工注释的准确性是其他注释的基石,目前有20个团队为GO的人工注释贡献力量。

机器注释主要两大类方法:根据序列进行注释和文本挖掘的方法注释。

1、根据序列信息进行注释:

annotation transfers from Homologous proteins

annotation transfers from Orthologous proteins

annotation transfers from Protein families

2、文本挖掘注释

Automatic text categorization

Lexical approaches

k-Nearest neighbors

Properties of Lexical and k-NN categorizers

Inter-annotator agreement

每种方法的具体解释参考《The Gene Ontology Handbook》的相关章节。

你这个问题~~

有点无厘头~

聚类分析,我们可以简单的理解成为中国人可以聚成一类,美国人聚成另一类,这些都是根据他们不同的各自属性来聚类的。

GO注释分析,翻译成中文好像是基因本体论分析,也就是gene ontology annotation,按照了三个大的标准(相当于前面所说的属性)将每个基因聚类(分别是根据基因的功能,参与代谢的过程,以及这个基因产物的定位)

字都打错了,可见你很不严谨呀。

一般两种方法,一是你自己来测,不过很花钱的(具体实验方法步骤可以到Google里通过gene sequencing来搜索)。

如果别人已经测好了,或者现在数据库里有了,你可以到NCBI上找到。