p-value
p-value翻译为假定值,假设几率。我们在生物信息中通常使用p值方法(P-Value, Probability, Pr)来做检验。那么p-value是什么呢?其实P-value就是一种概率,表示在原假设为真的前提下出现观察样本以及更极端情况的概率。
什么叫“更极端”情况呢,在此我们借用(https://blog.****.net/rongbaohan/article/details/53521147)举的抛硬币的例子,我们要检验一枚硬币是否质地均匀,现在我们假设这枚硬币质地是均匀的。那如何检验我们的假设呢?我们知道抛一枚质地均匀的硬币,正面和反面出现的概率均为0.5。那么我们就开始做实验:抛这枚硬币100次,假如我们观察到的结果是正面出现90次,反面出现10次,这个结果已经很不可能发生了,也就是极端情况了(质地均匀的硬币观察的应该是正反面出现次数均为50左右),那么所谓“更极端”的情况就是出现正面91次,反面9次,以此类推。为什么要去找“更极端”的情况呢?因为一个事件很极端,那么比它“更极端”的事件就非常少。
我们观察的结果(正面90次,反面10次)是在一次实验中得出的。我们重复做这个实验100次,每次抛100回硬币,现在要来考察“更极端”事件出现的概率。P-value=P(出现“更极端”情况的次数),如果这个p-value < 显著性水平α,则说明在原假设为真的情况下出现事件(正面90次,反面10次)是极端的,以至于我们不再相信原假设,因为p-value很小就说明在原假设为真的情况下出现观察到的极端情况的概率很低,但是根据小概率事件原理,概率很低的情况在一次实验中不可能出现,而极端情况却出现了,所以我们拒绝原假设。
p-value有什么意义呢?
我们如果计算出的p-value很小,说明原假设情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,p-value越小,我们拒绝原假设的理由越充分。
另外,p-value越小,表明结果越显著。但是检验的结果究竟第“显著的”、“中度显著的”还是“高度显著的”,需要我们自己根据p-value的大小和实际问题来解决。
我们再举一个生物信息上的例子,现在要在人类21号染色体上找图a这样的模式序列,我们将这种模式序列称为motif。(来源Noble W S. How does multiple testing correction work?[J]. Nature Biotechnology, 2009, 27(12):1135-7.)
该motif一共由20个碱基组成,碱基有四种(A, T, G, C),其中每一列上字母的大小表示出现的可能性大小,比如说第6个碱基,明显“C”最大,那么该位置是“C”的可能性就越高。
我们在人类21号染色体上找到6800万个长度为20个碱基的序列,我们给每个序列一个score,表示该序列与motif的相似性,score值越大表明该序列越可能是我们要找的motif序列。我们打完分数,列出score值最大的20个序列(我们将这20个序列集合设为A)。现在要表明我们的方法计算出的这前20个序列是有意义的,就要评估这种情况偶然发生的可能性。
下图为前20个得分最高的序列,我们只关注score。其中最高的分数为26.30.
我们提出零假设:前20个序列是随机出现的。相应地,备择假设:前20个序列不是随机出现的,而是与我们的方法有关(备择假设的意义为:我们的方法是可行的,通过我们给出的方法找出前20个序列是有意义的)。
现在我们将21号染色体上的碱基顺序打乱,根据零假设,高分数是随机的,所以我们的方法对于顺序打乱的序列依然会得到很高的分数。我们记打乱顺序后找到的分数最高的20个序列的集合为B。通过相同的方法计算出的结果显示:在B集合中只有1个得分≥26.30,即分数为26.30的序列的p-value = 1/(6800万)=1.5*10-8(找比26.30这个分数更极端的分数),如果设显著性水平为0.05,那么p-value << 0.05,即在原假设成立的情况下,出现26.30这样的高分数的概率非常非常小,也就是说我们得到的结果对原假设的支持程度非常非常小,所以我们拒绝原假设。
我们需要注意的是,p-value不是给定样本结果时原假设为真的概率,而是给定原假设为真时样本结果出现的概率。
所以我们的结果并不是在随机情况下出现的,说明我们的方法是有意义的,可以发现那些与motif相似性很高的序列。如果在碱基顺序打乱后,我们依然可以得到很多分数很高的序列,那么就表明我们的方法没有什么用,进而说明我们发现的那些分数很高的序列没有什么意义,那么我们做的这种研究就没有用了。
从假设检验上说,我们做研究时,并不希望得到的结果否定自己的假设,但是又无法完全证明得到的结果正确,所以我们通过建立一个与研究假设相反的假设H0,利用假设检验来证明否定H0,那么我们研究的假设相对来说就得到了接受。
随机推荐
-
Dshell----开源攻击分析框架
前言 随着互联网的高速发展,网络安全问题变得至关重要,随着网络的不断规模化和复杂化,网络中拒绝服务(Denial of Service,DoS)攻击和分布式拒绝服务(Distributed Denia ...
-
Excle巧取汉字打头的字串内容
处理表格数据时遇到问题:从网页表格中复制来的数据,地址一列中出现类似于“4AWZCX万载老林业局2”的无用字符前缀.现在希望提取第一个汉字及其之后的所有内容(图1),寻求高效分离中英文及数字的实操方法 ...
-
asp.net mvc razor布局页中a标签的href的跳转问题
笔者做了一个文件上传系统,文件上传后,保存在wwwroot目录的file文件夹中,并把该文件的路径保存到数据库中, 如这样的一个路径保存在数据库: file/b775f487-0127-41e0-9d ...
-
Python Web-第三周-Networks and Sockets(Using Python to Access Web Data)
1.Networked Programs 1.Internet 我们现在学习Internet部分,即平时我们浏览器做的事情,之后再学习客服端这部分 2.TCP 传输控制协议 3.Socket HTTP ...
-
[前端]如何写一个水平导航栏?(浮动、inline-block+消除间距)
在看W3school时,看到一个很好的例子,如何制作一个水平的导航栏?没有任何要求,只需要达到下面的效果: 我认为这个例子包含了很多css布局需要了解的知识,因此单独写一下. W3school上面的方 ...
-
你需要了解的高可用方案之使用keepalived搭建双机热备一览
在之前一篇使用nginx搭建高可用的解决方案的时候,很多同学会问,如果nginx挂掉怎么办,比如下面这张图: 你可以清楚的看到,如果192.168.2.100这台机器挂掉了,那么整个集群就下线了,这个 ...
-
React+webpack-Module Parse failed, Unexpected Character ‘ ’
webpack.config.js中配置: { test: /\.scss$/, loaders: [ 'style-loader', 'css-loader', 'sass-loader' ], / ...
-
【HDU 2063】过山车(二分图最大匹配模板题)
题面 RPG girls今天和大家一起去游乐场玩,终于可以坐上梦寐以求的过山车了.可是,过山车的每一排只有两个座位,而且还有条不成文的规矩,就是每个女生必须找个个男生做partner和她同坐.但是,每 ...
-
[BZOJ2654] tree (kruskal & 二分答案)
Description 给你一个无向带权连通图,每条边是黑色或白色.让你求一棵最小权的恰好有need条白色边的生成树. 题目保证有解. Input 第一行V,E,need分别表示点数,边数和需要的白色 ...
-
angular中$q.all用法
$q.all是用于执行多个异步任务进行回调,它可以接受一个promise的数组,或是promise的hash(object).任何一个promise失败,都会导致整个任务的失败. 例1:接受一个pro ...