search
技术服务021-34781616

欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置凯发k8凯发k8网址官网下载首页 » 新闻资讯 » 技术&解读&应用 » 对多组rna测序数据的差异表达分析的方法评估

对多组rna测序数据的差异表达分析的方法评估

来源: 查看手机网址
扫一扫!扫一扫!
浏览:- 发布日期:2017-12-08 15:43:06【 】

序言

“evaluation of methods for differential expression analysis on multi-group rna-seq count data”于2015发表于《bmc bioinformatics》 杂志上,与目前大部分的差异表达分析流程不同,这篇文献不是比较两组数据,而是专注于三组数据之间的差异分析,并对比了9个r包中的12种流程,并得出结论——tcc包中基于deges的流程能有效地对三组数据进行差异分析,其中有少量生物学重复(2-6组生物学重复)的使用edger的deges流程(eee-e),没有生物学重复的使用deseq2的deges流程(sss-s)。

介绍

一般来说,差异基因分析由两个步骤组成(数据标准化x和差异基因识别y),每个r包都有自己的x-y分析流程。其中数据标准化的目的是使所有样本间的非差异基因counts相似,然后得到p-values值来筛选出差异基因。

于是就提出了deges流程(the deg elimination strategy),即在使用x-y流程筛选出差异基因之后,去除这些差异基因重新对数据进行标准化,并根据再次标准化后的数据再次筛选差异基因。这个流程可以多次迭代,也就是x-(y-x)n-y流程,这篇文章中的评估中,n都取3。

deges流程的实现,就需要使用tcc这个r包。这个r包同时可以调用edger、deseq和deseq2的x-y的步骤,其中edger-(edger-edger)3-edger(简称为eee-e)流程就是x-(y-x)n-y的流程都使用edger包的函数,同理类推:deseq-(deseq-deseq)3-deseq(ddd-d)和deseq2-(deseq2-deseq2)3-deseq2(sss-s)。同时tcc包可以用不同包的x-y进行组合(x-(y-x)n-z),就有了ded-e等分析流程。

流程评估

表一是12种不同流程对不同条件下的100组模拟数据基因差异表达分析的评估。每组模拟数据有10000种基因,这里每组的生物学重复数量为3,下面的pdge=5%和pdge=25%分别代表在10000个基因的占比为5%或25%,其中pg1、pg2、pg3就是要进行差异分析的三组数据,后面的(33%、33%、33%)就是这些差异基因在三个组间的占比。而表中各个流程得到的数据是auc值(the area under the curve),本文不详细展开,大家只需要知道这个数值越接近100,说明对应流程的差异表达分析流程越有效。

从该表能明显得出eee-e的流程是在生物学重复为3时最有效的。同时在文献的附件中,有给出生物学重复为6时,eee-e仍然是最有效的选择,但在生物学重复为9时,ebseq包的效果却最好。

表二和表一相同,只不过是添加了tcc包组合不同流程的x-y的结果。根据表二可以得出eee-e和ded-e效果都不错,且相差不大,但是由于eee-e是edger包的自然延伸,也就更加适用。同时还可以看出,这一系列流程中最后的得出差异基因的y步骤对于流程的效果影响最大。

表三是没有生物学重复的情况下12种流程的效果比较,得出ede-s和sss-s是最有效的,但是sss-s是deseq2的自然延伸,也就更加适用。

结论

1. tcc包实施的deges方法可以有效地应用于多组数据(三组数据)的差异表达分析。且三种基于deges的流程(eee-e,ddd-d和sss-s)的auc值总体上高于相应的基于非deges的流程:ee(edger),dd(deseq)和ss(deseq2)。

2. 在基于deges的x-yx-z差异基因识别流程中,z对于获得良好的差异基因识别结果是至关重要的。对于流程xyx-z中的z,当分别分析具有和不具有重复的三组数据时,分别使用e(edger提供;表2得出)和s(deseq2提供;表3得出)给出较高的auc值。

3. 要分析有生物学重复的三组数据,建议使用tcc包中eee-e流程;要分析没有生物学重复的三组数据,建议使用tcc包中sss-s流程。

参考文献

tang m, sun j, shimizu k, et al. evaluation of methods for differential expression analysis on multi-group rna-seq count data[j]. bmc bioinformatics, 2015, 16(1):360.

推荐阅读

【本文标签】:
【责任编辑】:欧易生物凯发k8官网下载的版权所有:http://www.oebiotech.com转载请注明出处

欧易生物

技术热线:021-34781616 咨询热线:4006-4008-26

上海市闵行区新骏环路138号5幢3层
service@oebiotech.com
欧易生物
欧易生物微信公众号
 网站地图  凯发k8官网下载 copyright © 2016 凯发k8官网下载 保留所有权利