search
技术服务021-34781616

欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置凯发k8凯发k8网址官网下载首页 » 新闻资讯 » 技术&解读&应用 » 功能基因筛选干货系列?mbs(三)

功能基因筛选干货系列?mbs(三)

来源:
扫一扫!扫一扫!
浏览:- 发布日期:2016-11-30 15:48:53【 】

上期小编为大家总结了不同种类的突变,介绍了各种群体构建方案,大家可以点击链接回顾前两期:功能基因筛选干货系列•mbs(一)功能基因筛选干货系列•mbs(二)。本期小编将为大家介绍突变定位和鉴定的方法。

methods for mutation mapping and identification

标记筛选:目前大多数mbs实验都是利用分离重组群体来进行的。个体基因组间的大量自然多态性提供了高密度的遗传标记,可以用亲本测序信息或混合重组群体分离多态性来选择。后者缺乏突变等位基因的分配,且野生型亲本的基因型会对某些mbs方法造成不利影响。实际操作中,测序数据的具体特征可能并不总能满足不同资源的标记使用,这时可以使用公用的标记作为定义新标记的一种替代方法。

标记的严格筛选可以帮助排除假阳性标记,假阳性标记可能会降低对定位区间噪音的估计。然而,如果标记筛选和突变检测采用同样的步骤,那么对基因差异的严格筛选会增加出错的概率。两步鉴定遗传多样性——一步是标记开发,一步是突变鉴定——降低漏掉相关突变的风险(见下)。

定位区间判断:隐性突变重组突变体被期待成为相关突变的纯合子及其周围的标记,反之,不连锁的位点不显示等位基因的偏差,其仅来自于突变亲本。在这种情况下,找到一个定位区间最简单的方法可能是扩展扫描区域——染色体滑窗——通过计算修复和未修复等位基因比例得到的低杂合性区域(图1a)。这种杂合子定位方法不必预先获得任何亲本等位基因的信息。加测野生型池可以估计突变体池和野生型池间等位基因的距离(图1b)。等位基因的距离是两个不同样本间同源区域所有等位基因差异之和。相对于建池时选出的区域,随机分离在两个池里的区域共享了更多的等位基因。与纯合子定位类似,这种测量也不需要预先获得亲本基因型的信息。相比之下,依据实际mafs来估计定位区间的分辨率更高(图1c)。通过计算短reads比对发现的突变体与野生型等位基因标记位点的比例可以估计mafs。

图1 analysis strategies formapping-by-sequencing

标记通常比重组断点多很多,可以把与标记连锁的多个read结合起来。最初开发的简单滑窗法可高亮推测的纯合区,其次是更精确的基于回归的方法来接近等位基因频率。概率模型——例如隐马可夫模型、贝叶斯网络、似然比检验统计或g统计量——能够进一步改进这些估算,同时也计入染色体的不同重组率。然而,对诱变引起的分离群体,标记比重组事件更多的假设并不总是成立。类似滑窗的方法运行于缺乏标记的数据时,得到等位基因频率的近似值。其分辨率要低得多,甚至通过人工视觉检查个别标记的等位基因频率有时更有效(图2a)。

定位未“修正”突变(例如,混池中被错误分类的个体所污染的显性或隐性突变)时,准确估计等位基因频率特别重要,因为杂合子定位区间中等位基因频率的多态性要比纯合子区间大得多。增加的多态性是受两等位基因随机样本的影响,这在纯合区间中并不存在(图2b)。

图2the effects of coverage, heterozygosity and marker density on the resolution ofmapping interval estimations

mbs的分辨率:不管最终定位区间的大小,对区间内序列数据进行扫描可以立即揭示所有候选突变且无需附加任何有针对性的努力。这可能减少缩小定位区间的需求,特别的是,如果突变负荷低,区间内所有的突变都会被考虑进去。然而,定位区间内多个候选基因的存在会导致不能确定哪个突变与观察到的表型有关,而且这可能导致繁琐的相关与不相关突变确认过程。显然,越高的遗传定位分辨率能去除越多的背景突变,这能减少随后相关突变鉴定的工作量。与传统遗传定位类似,mbs的分辨率很大程度上取决于参与分析的重组个体的数量。一些在不同物种中进行的研究为重组体数目对定位精度的影响提供了见解。他们报道了使用≤10个a.thaliana重组体对1-5个候选突变进行鉴定,用分别20和50个c.elegans重组体鉴定9和3个候选突变。近期有关斑马鱼突变体的研究表明,20个重组体为定位和突变鉴定提供了足够的分辨率。显然,增加混池个体总是能够增加分辨率,且能够从候选突变中去除更多的背景突变,增加重组个体的劳动也许能获得额外的价值。然而,重组群体的构建受限于物种和突变表型,mbs的最佳实践是检测物种之间的变化。

图3 schematic of resolution comparison

与基于单独个体基因型的遗传定位相比,mbs不能精确的解决个体重组断点。因此,估计定位区间的起始和结束就不精确,这是由使用的方法决定的。尤其是,它们通常会延伸到重组断点之外,这会发生在突变重组体池中离相关突变最近的地方,并因此导致比传统遗传定位更低的定位区间分辨率。这种影响在低测序覆盖的地方出现得更多,因为不精确的等位基因频率对定位区间的的大小估计产生不利的影响。增加测序覆盖度——例如,通过产生附加wgs数据(特别是对小基因组来说)或者通过对dna富集或标记位点的重测序——可以帮助解决估计定位区间的边界问题,也能够去除并非与突变连锁的区域(图2)。mbs的分辨率不仅依赖于混池大小和测序覆盖度,而且受到突变平频率和突变位点附近重组频率的影响,预测一个精确重组数目和测序深度几乎是不可能的,如果可以,那么一个具体实验就可以成功鉴定一个突变。尽管如此,根据实践经验,一些具体参数,例如基因组大小和诱变导致突变的比例,已经在构建某些系统时被考虑进去了。

突变鉴定:在确定了一个定位区间后,可以对测序数据进行筛选寻找候选突变。这通常用那些用于mbs比对的短reads来完成,鉴定突变样本与参考序列之间遗传多态性时可以浏览重测序质量的值。并非所有的差异都源自新突变,一些可能是亲本中自然产生的基因组多态性。非突变特异的多态性是可以鉴定为独立样本间反复出现的差异(例如,在比较突变体池和亲本基因组时)或与公共数据库中已知的基因组多态性进行比较(比如dbsnp)。此外,多数诱变剂都有突变类型偏向性,这可以进一步区分突变与自然的多态性。这个背景过滤的步骤非常重要,因为错误的包含非诱变引起的变化会导致鉴定出错误的候选基因,反之,排除相关突变更会导致实验的彻底失败。

图4 a.alpina homeotic flower andflowering-time mutants

选出候选突变后,就可以根据其注释划分其研究优先度了,这些基因(或者它们的直系同源物种的注释)已知的功能有可能与表型和它们在定位区间中的位置有关,就和通过检视它们的短reads比对结果一样。如果仍然缺乏可靠的候选基因,那么将基因间突变与保守的非编码序列进行比较也许能在具有功能的非编码区找到候选突变。然而,也有可能相关突变被完全漏掉了,这会在相关突变没有被足够的reads覆盖或当其被定位到重复序列或其他无法正确读取短reads或参考序列的区域时发生。例如,像重复或易位这样的复杂区域会导致源自真正定位区间的reads错误地比对到参考序列中不连锁的区域,因此,在寻找候选突变时应避免包含它们。尽管这个方法需要非自动化分析ngs数据,将突变体池得到的不在参考序列内的区域与参考序列整合仍是可能的。

总的来说,根据短reads进行连锁评价和突变鉴定通常是很简单的任务,mbs的成功一般不太依赖筛选算法,但是非常依赖材料的纯度和群体构建的设计。

wgs的替代方案

局部基因组测序:当前,较大的和重复性较高的基因组的wgs仍然昂贵,且如果随后的分析只关注基因突变,wgs可能并不是必须的。全外显子测序(whole-exome sequencing, wes)或在定位区间中富集dna都是很好的替代方法。混池富集dna甚至可以同时进行mbs和降低复杂性。例如,超过10个斑马鱼重组突变体的混池wes可以快速鉴定出enu(5n-ethyl-n-nitrosourea)引起的2-13个候选突变基因。二者择一,突变体混池进行成本效益好的低深度wgs可以定位到一个近似区域,随后可以为定制进行这个区域深度测序的富集阵列提供基础信息。

图5 overview of whole exomesequencing pipeline. snv, single nucleotide variant

图6 pros and cons of differentsequence data types for mapping-by-sequencing

rad-seq:不像wes或者其他富集策略,限制酶切位点相关dna分析(rad)并不需要参考序列信息。在ngs发明前,多态rad全基因组分析已经用于基于bsa的突变定位,但在ngs开发出来后,rad又很快地与ngs结合。鉴于rad-seq(rad sequencing)没有明确地富集基因,所以不太可能包含实际的突变,需要附加更明确的定位。低复杂度的rad-seq数据可以进行独立于参考基因组序列的分析,如此便能够促进非模式生物中的正向遗传学筛选。然而,依赖参考序列的分析一般都很优秀,因为它们可以利用reads比对到参考序列的顺序所提供的连锁信息。

图7 how rad-seq works

rna-seq:通过分析rna能够以一种自然的方式降低基因组复杂度。另外,使用高通量rna测序数据来鉴定dna差异表达并分型,表达分析提供了可能被突变影响的表型的分子信息,例如全基因表达谱的模式或rna拼接。

图8 a typical rna-seq experiment

使用rna-seq数据为遗传定位量化等位基因频率远比用wgs数据来做复杂,因为基因表达的差异和等位基因特异表达向等位基因计数加入了另一个变化的来源。与其整合与标记连锁的等位基因,等位基因频率在被平均到其相邻标记之前需要用个体标记评估,与dna测序类似,实际的亲本基因型可以独立地估计突变体池和野生型池之间等位基因的距离。举一个应用的例子,一个研究使用了基于rna-seq的mbs来鉴定一个玉米中的突变,该突变改变了幼嫩叶片角质层蜡的积累。该文作者测算了包含32个个体的突变体池和包含31个个体的野生型池之间等位基因的频率,并且将突变定位到了一个约2 mb大小的区间。通过高拷贝数mu转位子系统生成同一个突变的附加等位基因表明在这个区间中有两个候选基因。所评估的那些用于定位该区间的rna-seq数据中,这些候选基因中只有一个在突变体池的表达显著下调了,该基因随后确认与突变表型有关。

尽管突变池和野生型池之间表达谱的差异有助于划分候选基因优先度,基因表达谱差异通常对一开始候选基因列表的产生并没有什么帮助。即使突变可能影响一个基因的编码区,却并不一定会引起表达变化。相反地,相关突变的下调影响可能对大范围的基因产生影响。还有,在基因组范围内准确预测差异表达基因是很复杂的,因为,与非连锁区域相比,定位区间内会产生杂合性;众多重复序列的存在要求不同基因表达的计算。

也许基于rna-seq的mbs复杂化最重要的原因是相关突变有可能并非由送测样品表达的,这就会造成rna-seq数据的缺失。如果有突变在不转录的dna(例如一个调控元件)或突变在一个表达具有时间或空间特异性的区域时,上述情况就会发生。然而,只要rna-seq数据捕捉到了突变位点,其附近的标记就可以引导相关区域的分析,即使这个区域并没有差异表达。

下期小编将为大家介绍无需参考基因组序列的分型方法,敬请期待!

推荐阅读

【本文标签】:
【责任编辑】:欧易生物凯发k8官网下载的版权所有:http://www.oebiotech.com转载请注明出处

欧易生物

技术热线:021-34781616 咨询热线:4006-4008-26

上海市闵行区新骏环路138号5幢3层
service@oebiotech.com
欧易生物
欧易生物微信公众号
 网站地图  凯发k8官网下载 copyright © 2016 凯发k8官网下载 保留所有权利