search
技术服务021-34781616

欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置凯发k8凯发k8网址官网下载首页 » 新闻资讯 » 技术&解读&应用 » circrna预测工具比较

circrna预测工具比较

来源:
扫一扫!扫一扫!
浏览:- 发布日期:2016-09-26 08:54:34【 】

circrna的存在很早的时候就已经被发现,但是一直没有大规模地进行研究,直到2013年nature文献上关于find_circ方法学文献出来,大规模研究的浪潮才兴起。随着研究的进一步加热,大量基于深度的circrna鉴定工具也纷纷出现。问题来了,那这些工具的具体表现怎么样,预测得准不准,全吗,最重要的是该怎么选择呀???

2015年12月10日发表在《nucleic acid research》上的这篇文献给你指引。

5种算法预测得到的结果差别较大,而且有很高的假阳性,所以作者建议可以使用多种方法联合预测或者采用去线性rna建库的方法进行circrna研究。

circrna检测的基本原理是去识别反向剪切的位点(backsplice),最主要的circrna类型是外显子来源的,当然,在内含子、间区、utr区域、lncrna区域以及已知转录本的反义链区域也都鉴定到circrna,同一个位点可能形成多个circrna,每个可能包含一个或多个外显子。circrna的数量从几千到几万都有可能。要研究circrna,鉴定是第一步,也是最重要的一步,目前已经有一些pipeline,鉴定得到的circrna是否准确和全面,取决于算法的严谨性和可靠性。文章中对目前最常用的5种circrna鉴定的算法进行了比较。下表是这些算法的一些概述:

这些算法都依赖外部比对工具,circexplorer和mapsplice需要有注释信息,其他三种可以不依赖注释信息,但是准确性会有所下降。耗用资源方面,仅finc_circ可以用单机运算(8g ram),ciri耗用资源最多。

测试数据:

物种:人

数据:srr444655和srr444975,未用rnaser处理,该文章中主要用于分析的数据;

srr444974和srr445016,使用rnaser处理,用于验证预测方法预测得到的准确性的数据。

仪器:hiseq2000,pair-end。

量:31.4-41.3gb/样本。

分析结果:

5种方法鉴定得到的数目以及各种方法之间的venn分析见下图,共计预测到5075个circrna。

5种预测方法得到的circrna的venn分析

每种方法预测得到的circrna,约12%(mapsplice和circexplorer)至28%(ciri)是能被rnaser降解掉的。

不同算法得到的circrna分类(绿色是rnase处理后富集的,灰色是无影响的,红色是对rnas敏感的)

在这预测到的5075个circrna中,有2043(约40%)是单独一种算法特异预测得到的,这些”独特的”circrna,除了用mapsplice和circexplorer预测之外,其他的三种算法都至少有50%以上的种类是对rnaser敏感的,并不是真正的circrna,所以这种“独特的”circrna在使用时要慎重,很有可能是假阳性导致的。

不同算法得到的“独特的”circrna分类(绿色是rnase处理后富集的,灰色是无影响的,红色是对rnase敏感的)

通过对这5种方法预测得到的circrna进行套索(lariat)结构的注释,发现这5种方法都能够很好地去除掉套索结构,保留真正的circrna。

不同算法得到的circrna注释(绿色是外显子来源的,灰色是其他,红色是套索结构)

ciri和_finder可以预测短片段的circrna,对于短片段circrna的真实性进行分析,发现这些circrna存在极高的假阳性,如下图所示,特别是长度在200以下的circrna,在该次分析中全部都被rnaase降解,即都不是真正的circrna,所以对于短片段circrna需要慎用。

片段长度在500以下的circrna的分类

从前面每种算法预测的circrna与rnaser处理的数据比较可以看出,单独一种算法鉴定得到的circrna存在较高的假阳性,且方法之间的差别较大。考虑可以采用两种算法联合分析。对于任意两种方法检测的效果,文中也做了比较:

两种或多种算法联用得到的circrna

从图中我们可以看到,两种方法联用可以降低假阳性,提高准确率。

通过对该文章的解读,我们归纳出以下几点:

  • 5种算法预测得到的circrna无论从种类到数量都差别比较大,其中mapsplice和circexplorer需要使用到注释信息,准确性较好。其他三种方法可以在没有注释信息的情况下进行预测(denove)。对于准确性要求较高的老师,建议可以两种算法联用。

  • 5种算法资源耗用情况也不一样,find_circ最少,单机可用,时间也较短,该文中中30g+的数据,用8g一下的内存,一个样本半天也就搞定了。而ciri要求最高,该研究中用到了128g内存,每个样本足足跑了3天多,与我们的测试结果也很相似。所以,建议土豪使用,比如实验室有服务器或者集群可以使用。其他几中算法,基本上30g内存也可以做做;

  • 预测得到的短片段circrna和各个算法“独特的”circrna慎用,特别是200bp以内的。

推荐阅读

【本文标签】:
【责任编辑】:欧易生物凯发k8官网下载的版权所有:http://www.oebiotech.com转载请注明出处

欧易生物

技术热线:021-34781616 咨询热线:4006-4008-26

上海市闵行区新骏环路138号5幢3层
service@oebiotech.com
欧易生物
欧易生物微信公众号
 网站地图  凯发k8官网下载 copyright © 2016 凯发k8官网下载 保留所有权利