为进一步解读“六原则”的意义,关注论文撤稿的博客retractionwatch.com采访了ASA执行主任Ron Wasserstein。 R = retractionwatch.com W = Ron Wasserstein
R:为什么现在发表“六原则”?是否是因为科学发展到现在阶段让P值误用成为了一个特别急迫的问题? W:我们是被现在持续加剧的可重复性危机以及人们将此归咎于统计方法的现象刺激了。学术期刊《基础和应用社会心理学》(Basic and Applied Social Psychology)的编辑对于P值的误用和误解感到如此的无力,因此在2015年决定禁用这一指标。这一做法更证实了对P值的信任危机已经到来,ASA不能再坐视不管。
R:部分原则看起来非常直白,但我对第二条有点疑问。我常常听说P值可用来估计数据是否仅由随机过程产生,为什么这是一种错误的想法? W:让我们设想一个简单的情境来解释这样的想法意味着什么。假设出现了一种针对某严重疾病的新疗法,研究者宣称这比已有的疗法更有效。我们选取2个情况类似的病人配对,一共得到5对这样的病人,给每对中的两个病人随机分配新、旧两种疗法。零假设(无效假设)是指新旧两种疗法在5组内都有50:50的概率更有效。假如零假设为真,新疗法在5个组中都表现出更好的概率是(1/2)5=1/32,约等于0.03.如果在实验中,每组接受新疗法的病人都表现的更好,我们就会得到0.03的p值。它代表的是这样一种概率:当新旧两种疗法实际效果相同时,实验结果显示新疗法全比旧疗法好的概率(即假阳性的概率,译者注)。[如果加注的话这里就很合适]但这不是新旧两种疗法效果相同的概率。 这可能很微妙,但绝非诡辩。这是一个非常常见的逻辑谬误:为了让结论为真,你不得先不假定其为真,然后才能得到这个结论。如果你掉进了这个逻辑谬误,你得到的结论会变为“只有3%的概率这两种疗法疗效相当”,然后认为新疗法有97%的概率更好。你就犯了一个经典并且非常严重的错误。
R:在研究者使用和解释P值时,他们犯的最大的错误是什么? W:有几种错误特别普遍,并且导致了很大的问题。刚刚提到的那个就很常见。另一个是常见的误解是:计算出了较大的P值,就认为零假设为真。还有其他的误解,但引起我们更大重视的是误用的问题,特别是研究者把统计显著性作为科学价值的评价标准。这种误用是糟糕的决策和不能重复的研究的始作俑者之一,最终不仅会危害科学的进步,还会摧毁公众对科学的信任。 R:有没有哪些领域比其他领域出的错更多? W:据我所知还没有人研究过这个问题。我感觉所有科学领域都有诸多明显的错误,但也有研究非常漂亮地使用了统计学方法。但总体来说,在那些对被试者或试验单位进行了多重测量的研究中,P值更易被误用。这种测量方法会给予研究者成为“P值黑客”(即找到一种方法获得满意的P值)的机会,但这种机会却不能给科学本身带来任何益处。
R:你能否详细解释一下第四条——“研究者需对研究进行完整的报告、保证透明度,才能做出合理的推论”? W: 这当然有很多可说的,但简而言之,从统计学的角度,这意味着要追踪和报道关于你对数据作的所有决定,包括数据收集的设计和执行过程,以及你在分析数据过程中做的一切。你是否以某种方式进行了跨组平均或合并了组间数据?你是否用数据来决定检测或控制哪个变量,或者在最终的分析中包括和删除了某个变量?你是否不断地增减变量,好让自己的回归模型和系数通过了某个显著性标准?这些决定,以及所有基于数据本身的决定都需要被包括在内。
R:在随ASA的声明一起发表的内容里,你提到希望学术界能够进入“后p<0.05”时代。这指的是什么呢?如果不使用P值的话,我们应该用什么代替它? W:在后p<0.05时代,科学论证不应基于P值是否足够小。效应量和置信区间都应被郑重对待。统计结果应被理解为连续、而非二元的。当用这种方法考虑问题时,面对P值,我们应该看到一个数字,而不是一个不等式,如p=0.0168而非p<0.05。所有与推断有关的假设都应该被检测,包括和数据选择和分析方法有关的决定。在后p<0.05时代,数据分析仍然很重要,但没有一种数值,而且必然不是P值,能够代替统计思考和科学推理。
R: 还有什么要补充的么? W:我们很快就会知道这份声明是否能达到它的目的。如果是的话,期刊将不再把统计显著性作为是否接受论文的标准。取而代之、被接受的论文的特征应是:试验设计、执行和分析被清晰细致地描述出来;结论建立在有效的统计解释和科学论点之上;报告得足够全面、透明,能够被其他人严格的审查。我认为这是杂志编辑想要做的,有人已经在做了,但也有一些人这被看起来简单的统计显著性所诱惑。
呐,如果你还对“P值到底是啥”这个问题有点晕, 这里有一个超级好懂的解释: P值大小指示的是假阳性的出现概率, 代表了研究者对假阳性的容忍度。 “P≤0.05 reflects our level of tolerance for false-positive results."
|