Nature 2014年2月12日发表了一篇新闻题为“Scientific method: Statistical errors”,其中副标题就提到:p值虽然是统计有效性的黄金标准,并不像许多科学家认为的那么可靠。也就是说,很多科学家在写论文时其实错用或滥用了p值这个概念。
其中有一段文字,也许研究者,尤其是那些被p值大于0.05困扰的研究者,读起来会觉得非常解气。有人认为p值就像苍蝇一样烦人却挥之不去,或者像皇帝的新衣一样是个大家都忽视却明显的问题;甚至有人建议把假设检验改名为统计假设推断检验(statistical hypothesis inference testing)而且要大力推广它的缩写:ShIt。
那么p值到底是什么呢?说到p值,不得不说说统计学上着名的Fisher和Neyman-pearson之争。
p值是着名英国统计学家R.A.Fisher在20世纪20年代首先提出的,他在创立假设检验理论时提出p值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。
做统计推断时,实验者首先要提出一个“零假设(null hypothesis)”,这个假设往往是研究者要攻击或者反对的结论,比如两组间没有差异或不相关。然后规定一个“显着程度(significance level)”,Fisher将之规定0.05,因为他认为20次出现1次已经算得上“古怪(odd)”的了。事实上,0.05没有严格的数学意义,“显着程度”是人为规定的,只是约定俗成定成0.05了。当年我的统计老师告诉我“显着程度”或显着性指的是小概率事件发生的概率,通常认为是5%。接着,对一组特定的实验数据,计算与这组数据以及比这组数据更加极端情况的概率,称之为p值(p value);最后比较p值和0.05的大小,如果p<0.05,下结论“在零假设下,要么我们观察到了小概率事件,要么我们的理论是错误的”,如果p≥0.05,下结论“我们没有充足的证据拒绝零假设”。
Fisher的理论中,做p值计算和统计推断的过程中只涉及零假设,他的分析逻辑是“从特殊到一般,从个体到整体”的推理方法,而且似乎认为p值是可以互相比较的,p值越小证据越充分。
同期的另外两个着名统计学家Neyman和pearson则提出与Fisher不同假设检验和统计推断的理论体系。就是在做假设检验时必须先做两种假设:零假设(h0,无差异)和备择假设(h1,有差异)。在做统计推断的过程中不是一味攻击h0,而是在一定的容忍度(犯1类错误概率)范围内做出抉择。这里提到的1类错误就是我们常常说的a,Neyman和pearson推荐用的a值也正巧是0.05。在他们这个理论体系里,提到了两种假设,其实就是我们做统计推断的两种可能的结论,无差异或者有差异。他们认为备择假设(h1,有差异)应该是特殊情况,因此我们在进行统计推断的过程中要注意控制1类错误(a值)的大小。同时也提到了2类错误的概念。所谓的2类错误就是β,也就是两组确实有差异,而我们通过样本的计算选择接受零假设所犯错误的概率。1-β则是零假设不成立,我们通过样本的计算选择拒绝零假设的概率,也就是我们常常说的“统计效能”(statistical power)。有趣的是,Neyman和pearson的理论体系独独没有提到p值,也不做p值的计算,而是通过计算比较统计量和a对应统计量的大小。其计算过程是比较复杂的。
●临床研究就在你身边,你有能力和条件开展临床研究,关键是克服各种困难,持之以恒,屡败屡战,直至成功。
●临床工作中遇到的问题是临床研究的机遇和起点。1用对你最方便合适的方式记录你发现的临床问题,最好用一句话来表述。2合并相似的临床问题,用简明扼要的语言准确地表述临床问题。3以适当的方式整理和储存临床问题,形成数据库。4在各种临床问题中筛选重要的、有研究价值的临床问题。在临床研究工作中不断使用临床问题数据库。
●不断凝练临床问题背后的科学问题,用一句话准确地表述科学问题,一个临床问题背后有许多科学问题。科学问题可以附加在临床问题之后,作为临床问题数据库的补充或延伸。
●在提出临床问题和凝练科学问题的基础上,在全世界范围内检索文献,在文献层面站到学科前沿,避免做低水平重复工作。
●针对临床问题和科学问题,在文献复习基础上提出研究\/解决问题的设想,即工作假说。工作假说要凝练为一句话,用规范的形式写出来。我们常采用logistic回归处理二分类因变量和多个自变量之间的关系,但当出现结局所经历的时间也很重要时,比如,恶性肿瘤随访研究中,研究对象出现死亡、复发等结局所经历的时间也很重要,这时候就需要考虑生存分析了。
生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法;用于研究生存时间和结局与众多影响因素之间的关系。做生存分析时,必须有终点事件是否发生的状态变量(二分类变量)和随访到这个状态的时间(连续变量)。下面介绍一下生存分析相关的概念。