在教程(一)中最后有一个小问题,在从david数据库下载下方的表格时,并不能直接下载成xsl或csv格式的文件,下方实际上是点击download按钮后,用浏览器打开后,选择“全选“,然后粘贴到一个新的记事本中,再用excel打开,最后存成csv格式文件即可。
教程二主要讲解一下GO或KEGG富集分析中P值该如何理解。回忆一下t检验,t检验中P值代表了原假设成立条件下出现当前结果的概率值,一般以0.05和0.01作为两个阈值,但是近期P值这种一刀切的做法遭到了很多学者的联名反对,想一想之前天士力复方丹参滴丸在美国的试验也是因为显著性的问题遭到了打击,确实是非常可惜。但是在GO分析中,由于数据的结构,这时我们需要用超几何分布来描述随机过程中出现当前富集结果的概率值。先不谈这件事,我们先来看看基因富集分析的韦恩图表示情况。如下图所示:
上图中总的背景基因就是我们所研究的物种的所有基因(也就是在教程一中我们在david数据库中所选择的background),红色矩形框中的基因是我们输入的基因,背景基因中功能A相关基因共150个,用黄色的圆圈表示,功能B相关基因共1000个用紫色的圆圈表示。如果我们输入的基因中有100个基因和黄色的圆圈重合,另有100个基因和紫色的圆圈重合,那么我们并不能说明我们输入的基因中功能A和B富集程度是一样的,因为大背景中A和B的个数就是不同的,这时为了评价输入基因在A和B中的富集程度,我们需要看超几何分布下的P值:
需要充分理解这里面P的含义,可以先回忆一下高中所学的超几何分布,实际上这里面P的公式类似于工厂总共生产了N件商品其中有n件是次品,从中随机抽取m件,抽到次品个数为i的可能性就是上面这个式子去掉外边的求和公式所表示的。
而对应到基因中就是在大背景基因个数N下抽取功能A所有个数m个基因,已知m个基因中和输入基因重合的共有n11个,那么随机状态下,比这种情况基因重合个数更多的所有情况出现的概率总和就是这里面P值的含义。由此可见,P值越小,说明当前的结果越有可能是真正富集的结果,而不是一种随机的过程,所以文献中GO分析的图表经常是柱状图,单位是-log(P_value),这个值越大,则说明富集的结果越可信。
教程二到此结束,大家有任何好的建议欢迎在后台留言!