egg操作数据库,eggnoodles
目录
1.蛋奶酒介绍2。蛋酒映射器3的注释原理。蛋酒5.0数据资源4 2。蛋酒映射器使用5。nog,KOG,COG,KEGG,GO的区别?1.蛋奶酒介绍。最近考虑到使用的一些数据库太旧,需要更新。整理的时候发现蛋酒数据库去年更新过一次:蛋酒5.0:基于5090种有机物和2502种病毒的层次化、功能化、生理学注释的or资源。距离上一个版本蛋酒4.5已经过去了3-4年,更新频率比较慢。但是这次更新的内容是双倍的。下面是4.5和5.0的对比。
蛋酒数据库的全称是:orthologous(非监督正统群体)数据库,由EMBL创建并维护。它是NCBI COG数据库的扩展,提供不同分类水平的蛋白质直向同源群(OG ),包括真核生物、原核生物和病毒的数据信息。它扩展了COG数据库的分类方法,通过无监督聚类算法推导出基因在全基因组中的功能,更适用于系谱特征基因的分析。
2.eggNOG-Mapper注释原理传统的功能注释方法是基于序列相似性来寻找直向同源基因,通常用blast blast2go或InterProscan进行注释。这种方法可能会发现侧枝同源基因,蛋酒可以区分侧枝基因和直向同源基因,因此开发了蛋酒映射器用于功能注释。蛋酒v5.0对应的工具是蛋酒-mapper v2。
注释过程可分为以下四个过程:
A.序列比对:用HMMER搜索HMMs数据库找到OG,或者用DIAMOND搜索蛋白质数据库(这样更快,更适合宏观组学)。每个序列的最佳匹配结果以种子直向同源物的形式存储,用于获得其他直向同源基因。b、获得同源基因:通过种子同源提取一个或一组优良的同源基因。c、去除亲缘关系较远的同源基因:根据bit-score或E-value对结果进行一次过滤,去除同源性较低的结果。d .功能注释:蛋白质序列搜索到的直向同源基因的功能描述就是最终的注释结果,如GO、KEGG、COG等。
3.蛋奶酒5.0的数据资源库是生物信息的基础。每个生物数据库都有自己的特点(主要是从不同的角度解释生物问题),但信息的全面性、分类性和准确性是数据库的关键。egg 5.0的下载数据在http://eggnog5.embl.de/download/eggnog_5.0/.
其中,e5.proteomes.faa为全部蛋白质组序列,E5 . virus . FAA为全部病毒蛋白质序列,e5.taxid_info.tsv为taxid和完整谱系信息对应的物种名称,e5.og_annotations.tsv为全部NOG信息,第一列为Taxid,第二列为NOG组,第三列为COG。
除了功能之外,每个物种都有相应的注释信息http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/,如1060(TaxID):
5000多个物种对于功能注释来说是全面的,但是对于注释物种来说还远远不够。
4.eggnog-mapper的使用使用eggnog-mapper之前要准备好:python,hmmer,diamond,fasta,annotation database。
#下载软件
git克隆https://github.com/jhcepas/eggnog-mapper.git
#下载数据库
蛋酒制图仪。/download _ eggnog _ data . pye uk # euk真核、bact原核、古菌拱、病毒
#评论
python mapper . py-itest . fa-output。默认情况下,/-deuk #使用HMMER进行搜索。
python mapper . py-mdiamond-itest . fa-output。/-deuk #指定搜索数据库的类型,可以分为大类和小类。
python mapper . py-itest . fa-output。哺乳动物NOG
python mapper . py-itest . fa-output。/-d manog-usemem-CPU 10 #内存和线程
至于蛋酒标注的结果,包括一些匹配和评分信息,以及GO、KEGG、BiGG、COG、KOG、NOG等函数的标注结果。但不建议使用其GO和KEGG结果,因为这两个数据库在信息生成领域更新最快,信息最全,蛋酒标注的结果可能跟不上。我们可以采用其COG、KOG、NOG的标注信息,因为COG/KOG几乎没有更新过,2003-2014年还在https://www.ncbi.nlm.nih.gov/COG/。
5.NOG,KOG,COG,KEGG,GO有什么区别?Kegg(基因和基因组百科全书)和GO(基因本体论)大家都知道,就不解释了。目前至少是两个权威数据库。
主要是NOG,KOG,COG有点傻。
相同点:三者都是同源分类数据库,即都是OG(正统群)。
差异:
Cog:蛋白质直向同源群簇,即同源蛋白质簇,是NCBI的数据库。根据生物全基因组编码蛋白系统的进化关系,COG的每一簇都是由直向同源序列组成的,所以我们可以猜测这个序列的功能,根据其功能可以分为26类。Ko:真核生物群(为什么不叫它EOG?问号)。从广义上讲,COG可以分为真核和原核两种。原核一般称为COG数据库,真核一般称为KOG数据库。Nog:无监督的ortho logigroups,注意无监督。由于COG没有及时更新,EMBL蛋酒对COG进行了改进,大大扩展了基因组信息,主要提供了基于HMM分析的更详细的OG分析。做了蛋奶酒还有必要做COG/KOG吗?可以做,也可以不做,主要看你的心情,哪个更能说明你的生理问题。总的来说差别不是太大。COG虽然过时了,但它的权威性还在。
附:不同功能数据库的层次划分
参考:
应该是eggnog-mapper函数最好的注释教程。时隔四年,NOG数据库更新完毕!宏观功能注释(以COG为例)https://www.biostars.org/p/286615/
作者:Bioinfarmer。及时了解动态信息,请关注同名微信微信官方账号:Bioinfarmer。
来自
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。