search
技术服务021-34781616

欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置凯发k8凯发k8网址官网下载首页 » 新闻资讯 » 技术&解读&应用 » 高通量数据分析-pca分析

高通量数据分析-pca分析

返回列表 来源: 查看手机网址
扫一扫!扫一扫!
浏览:- 发布日期:2017-07-21 10:24:26【 】

定义

pca【1】是一种数据降维的方法,通过正交线性变换,将高维相关度较大的数据,转换为低维正交的新的数据。低维数据往往根据包含的最大方差的比例的多少,由大到小分别称为第一主成分,第二主成分,第n主成分。


与高通量数据相结合


对于转录组来讲,通常各个基因之间是存在调控关系的,那么这些基因的数据之间是存在相关性,这些相关性较高的基因往往是参与相似的生物学过程,或者相关的pathway,或者是响应同样的外部因素(实验处理)。通过pca分析之后,这些相关性较高的基因最终形成同一个主成分。

通常,对于一次试验设计,背景因素是严格控制的,所以在进行pca分析之后,理论上前几个主成分之间的差异往往是与实验显著相关的,所以,一般的高通量项目的pca分析,最终会绘制2d的pca图(即第一主成分作为x轴,第二主成分作为y轴)或者3dpca图(即第一主成分作为x轴,第二主成分作为y轴,第三主成分作为z轴)。


举个例子

下图是某一个实验的pca图:

其中图上不同颜色代表不同分组,x轴代表了第一主成分,解释了样本55.48%的方差信息,y轴表示第二主成分,解释了样本22.37%的样本信息。从结果上看,不同的分组在第一组成分已经区分开了,但是wt组在y轴上有一个样本偏离的比较远,这个样本后面核对信息的时候,发现不是同一批次准备的样本,导致了在pca图上的偏离。


总结

1. pca图上的不同主成分上解释的方差比例(即xy轴上的百分数),这个是有比较大的参考价值,代表了在图上看到的样本信息量的多少。

2. 一般情况,实验设计的区别会在前几个主要成分上显示出来。但是若样本的区别很小,或者背景干扰因素太多的时候,在pca图上就很难呈现明显的区别。

3. 更进一步的pca分析,可以计算出跟各个组分相关度较高的基因,对这些基因进行进一步的分析,从而解释pca图上的距离所影响的生物学过程或者通路。

1. pearson, k. (1901). "on lines and planes of closest fit to systems of points in space" (pdf). philosophical magazine. 2 (11): 559–572. doi:10.1080/14786440109462720.

推荐阅读

【本文标签】:
【责任编辑】:欧易生物凯发k8官网下载的版权所有:http://www.oebiotech.com转载请注明出处

欧易生物

技术热线:021-34781616 咨询热线:4006-4008-26

上海市闵行区新骏环路138号5幢3层
service@oebiotech.com
欧易生物
欧易生物微信公众号
 网站地图  凯发k8官网下载 copyright © 2016 凯发k8官网下载 保留所有权利