在发表于Nature Human Behaviour一项最新研究中,研究者试图复现在顶级期刊上发表的21项社会科学实验,但仅仅复现了其中的13项。这引发了新一轮的可复现性危机,大量人员开始讨论:什么样研究结果是可靠的?如何提高研究的可重复性?

 

 

1.复现危机:

顶级期刊上的社会科学研究难以复现

 

 

可重复性是实证科学的基石,对社会科学而言,这块基石现在出现了松动。

 

8月27日,Nature子刊 Nature Human Behaviour 发表了一篇论文,一个由40多位研究者组成的团队(The Social Sciences Replication Project),在社会科学界放出了一枚炸弹——他们重复实验了2010年到2015发表在Nature和Science上的21项社会科学研究,发现其中8项实验结论无法复现。这意味着,这些研究结论的准确性大打折扣。

 

论文题目:Evaluating the replicability of social science experiments in Nature and Sciencebetween 2010 and 2015

论文地址:https://www.nature.com/articles/s41562-018-0399-z#ref-CR41

 

在复现这21项研究时,科学家使用的实验者人数达到了原始实验的5倍。但是在21项研究中,仍然有8项研究的结果无法重现。而在结果可以重现的13项研究中,实验结论的平均效力只能达到原始论文的75%。

 

这项研究中,发表在Nature上的4项研究有3个无法复现,发表在Science上的17个研究有10个无法复现。该研究的负责人之一Michael Kirchler表示:即使是顶级期刊,也应该要求发表的文章具有很强的可重复性,其实这些实验在出版前做一次复现并不很难。

 

在未能复现的8个研究,有一些非常有创新性,甚至有很大的社会影响。比如2011年发表在Science上的一项研究,声称数字搜索引擎改变了人们记忆信息的方式:对于那些很容易在网络上搜索到的信息,人们反很难去记住。这个结论曾经被广泛报道,媒体鼓吹说搜索引擎可以为我们的认知卸载,就是所谓的“谷歌效应”。但在复现实验中,研究者没有发现类似的效应。

 

研究人员认为,这些已发表的研究结论存在系统性的偏差。

 

 

 

 

2.实验结果:

这些研究结论近40%都无法复现

 

 

 

在初步的研究中(图a),研究者发现重复试验结论中有12个在方向性上与原始研究一致。 在进一步的研究中(图b),研究者增加了统计效力的指标,21个实验中有13个的实验效果与原始实验显著一致,即没有出现与原研究相反的结论。

 

这张图是复现效果被归一化后的结果,如果复现效果是1,则说明复现实验的效应与原始实验完全一致。其中标准化相关系数为r,置信区间为95%,即P值小于0.05时认为结果是显著的。

 

而在结合原始研究和复现研究效应大小的荟萃分析(mate analysis,对研究结果的再统计,检测其统计显著性水平、测定其效果量)中,21项研究中有16项在元分析中与原始研究在方向性上有显著一致性,见图c。当然,荟萃分析假定了这些原始研究结果没有受到期刊发表等引起的偏差,所以是过于乐观的结果。

 

在这一期的Nature Human Behaviour中,另外有8篇相关的研究文章,分别介绍了这些重复试验的操作做法,并分析了没有复现成功的可能原因。 研究者认为,复现实验证明了原始实验中的许多结果是假阳性(False Positive)的。假阳性结果也会表现出较高的统计显著性,但并非真实情况。

 

为什么许多假阳性的实验结果也被匆匆采纳发表?该项目的研究者认为这些研究结论存在系统性的偏差,比如数据误报,比如高估真阳性的概率。

 

而更深层次的原因是科研人员在论文发表方面,有巨大的竞争压力。科研人员不仅要考虑如何在更严格的实验验证提高论文可复现性,还要论文的独创性。

 

但是假阳性的研究结论,会对学界的后续研究形成持续的负面影响,这种影响甚至会波及到政策、民生上。由此引发了对社会科学研究可靠性的新一轮质疑,这是又一次的可重复性危机。

 

 

 

 

3.可重复性的问题其实由来已久

 

 

 

可重复性危机(Repoducibility Crisis)不是第一次出现了,这是让学界头疼的老大难问题。

 

Nature杂志曾经针对1576名科研人员做过一项调查,90%以上的受访者表示科学界存在可重复性危机,而且一半以上认为可重复性危机已经到了严重地步。其中70%的研究人员曾经试图重现其他科学家的研究却以失败告终。更难过的是,有过半的研究者,连自己曾经做过的实验也无法复现。

 

2015年,在一项被称为RPP( The Reproducibility Project: Psychology )的研究中,研究者对顶级心理学期刊在2008年发表的100个心理学实验做了大规模的可重复性研究,发现其中仅有39个实验被成功复现,61个都无法重现。这给心理学研究者乃至社会科学研究者敲了一记警钟。

 

2016年,在另一项旨在研究经济学可复现性的项目EERP(the Experimental Economics Replication Project)中,研究者尝试复现18个经济学实验,其中只有11个实验达到了与原始实验相同方向的结论。

 

心理学和经济学领域内的这两项大规模复现研究,虽然具有相当高的统计效力,但在方法和标准上仍有争议,首先是实验规模可能不够大,样本偏差可能影响到了实验结果,而且这两项复现研究的检验方法主要是零假设检验(比较p值)。考虑到这些,在 Nature Buman Behaviour 的这项研究中,实验人员用了比原始实验更大规模的实验对象,试图消除一定的系统偏误。

 

 

 

 

4.可靠性不够,P值来凑?

 

 

 

“统计显著性”是衡量一个研究结果可靠性的重要指标,它常常决定了研究结果是否能发表在科学期刊。统计显著性的测量指标是P值。在零假设检验中,如果P值小于0.05,往往就说明该研究结果是统计显著的。

比如在测试一种新药是否起作用时,可以把患有该疾病的被试分为两组,一组服用药物药物,另一组服用安慰剂药丸,看一段时间之后被试人员的症状。

 

如果服药组人员的症状比安慰剂组人员的症状更好,则可能以为这药物是有用的。这正是研究者试图证明的实验假设——备择假设。但是为了避免测试结果中一些偏差(比如误诊、药物相互作用)对实验结论的影响,研究者会做一个“零假设(null hypothesis)”——假设服药物人员与安慰剂组人员症状变化相同。与零假设对立的备择假设(H1),则是服药物人员与安慰剂组人员症状变化明显不同。

 

如果实验表明服药组合安慰机组症状变化确实显著不同,那么零假设就被证伪了。

 

P值描述的是在零假设条件下,现有实验结果发生概率。在重复实验中,如果P值很小,那么得到这个相同结果的次数就很少,这就证明了这个假设的可能性是很小的,进而说明这个实验数据的随机性引偏差的可能性很小。

 

但这只意味着结果具有统计意义,而且是显示相关性而非因果关系。也没有说明实验结论的效应大小,即药物功效如何。被证伪的零假设不能能说明药物改善症状的机制,也不能说明这个实验设计得是否良好、控制得到,或者结果是否被人为调控。

 

另一方面,研究者永远无法完全排除零假设为真的可能性,所以他们用P值小于0.05作为门槛。P值小于0.05就意味着这是可以排除的小概率事件。

 

 

 

 

5.“万恶的P值”,

是缩小到0.005还是彻底放弃

20世纪20年代,统计学家费希尔(Rondld Fisher)首次使用P值,本意是用来来判断数据是否值得更深入是研究。其思路是先进行一项实验,观察结果是否随机,然后提出一个想要推翻的零假设。P值越小,研究人员成功证明这个假设不成立的可能性就越大。但在后来者的研究中,出现了许多对P值的误用,逐渐形成了“P值小于0.05,统计结果即可视为显著”的规则。

 

有一个提高实验严谨性的方案是,把实验结果具有统计显著性的标准,从P<0.05提高到P<0.005。2013年发表在PNAS的一篇论文,统计学家Johnson 研究了“0.05的P值意味着零假设为真的概率是5%”的这个假设,发现实际上,当P=0.05时,零假设为真的概率可达到25%-30%之高。这在统计上,完全不是小概率事件了。Johnson提出了一个观点,是把p小于0.05的结果称为“有启发性”的,而达到更为严格的0.005的结果,才能被称为“统计显著的”。

这样提高统计显著性的标准,会迫使研究人员采用更严谨的实验方法,但是,这意味着想发表“统计显著”的实验结果会变得非常困难。这往往意味着实验人数的倍增,对于经费和人力有限的研究机构来说,这很困难。

 

出于对科研结果的负责,一些科学家开始考虑新的解决方案,使用其他的统计学工具,比如贝叶斯检验。

 

 

 

 

6.贝叶斯因子检验:

可能是更好的假设检验方法

 

 

 

如何从随机事件中区分出真正的效应是一个古老的话题,统计学家为此讨论了数个世纪。P值检验的问题在于它没有抓住真正的问题:我们真正需要知道的并非是在效应不存在时观测到现象的概率,而是在观测到现象时效应存在的概率。

 

贝叶斯因子分析是一种替代的方案。贝叶斯概率是后验概率,即在事件发生之后求的反向条件概率。对于任意一个模型假设H,可以根据一次实验收集到的数据(Data)来检测某个理论为真的可能性,并用贝叶斯公式来表示。

 

贝叶斯公式表示的意义是,如果我们要计算在当前实验数据发生的条件下模型假设H为真的概率,就等于在模型假设H正确的条件下出现当前实验数据data的概率,与模型H为真的概率的乘积,再除以实验数据data发生的概率。

 

以零假设(理论模型H0)为例,它的贝叶斯公式表示数据更新之后,理论模型H0正确的概率,即后验概率:

 

所谓贝叶斯因子假设检验,就是根据观测数据,同时对零假设(理论模型H0)和备择假设(理论模型H1)的可信度进行分析。我们可以根据数据得到零假设H0和备择假设H1的后验概率,用除法比它们的大小:

 

其中贝叶斯因子为:

 

BF10代表模型假设H1与模型假设H0对比的贝叶斯因子。如果BF10=30,表示在备择假设H1为真的条件下出现当前数据的可能性,是零假设H0条件下出现当前数据的可能性的30倍。

 

贝叶斯因子代表的是当前数据对于一个模型的支持程度与对另一个模型支持程度的比例。区别于P值分析计算的是统计显著性,贝叶斯因子描述的是数据对假设的支持程度。

 

在8月27日的这篇Nature Human Behaviour论文中,除了使用零假设检验的方法(p<0.05),也采用了贝叶斯因子分析的方法来判断结果的显著性:

默认贝叶斯因子为1,低于1表示实验结果对零假设H0有利,高于1表示实验结果对备择假设H1有利。贝叶斯因子大于10,则说明实验结果对于备择假设H1有较强的证据支持。

 

这21项研究的复现中,有9项实验结果对原始研究的假设有较强支持,有4项实验结果对原始研究的假设有中等程度的支持,但也有8项实验结果与原始研究背道而驰,甚至其中4项实验结果对原始研究相反的模型有强烈支持。

 

在使用更可靠的贝叶斯因子分析之后,仍然有8篇文章的复现结果很糟糕,对这些文章是很不利的。顶级期刊的文章尚且如此,难免让人对社会科学论文的可靠性产生疑虑。

 

 

 

 

7.难以复现的实验

就是错误和无用的吗?

 

科学界再度曝出可复现性危机,对此Science杂志的名誉副主编BarBara Basny表示,未能复现的论文并不意味这原始实验是错误的。因为规则(protocol)存在差异,研究样本也存在差异。Science是服务于跨学科读者的,刊载文章的判断标准并不仅仅是技术能力,会在不同领域寻找有突破进展的研究。没有复现是很遗憾,但这就是科学运行的方式:它在往前发展,人们做了更多研究。不是每一篇论文在出版时都很完美。

 

Nature 杂志则发表了声明称,它一直在与科学界合作,提高可重复性的标准。2013年以来,该期刊要求论文作者提交一份清单,以确保他们对实验设计和分析都有所解释。如何提高可重复性呢?Nature认为,期刊、实验室、研究机构和经费资助者都可以发挥作用。

 

“科研已经如此艰难”,还要承担随时被推翻的风险。提高结果可靠性是一个难题,提升P值标准,或者用其他统计方法替代,或者是大幅增加样本数量,似乎都难以解决所有的问题。

 

这真的是危机吗?或者只是科学界的常态?还是一次偶然事件?欢迎在留言区交流你的看法。

 

 

 

 

参考资料

 

 

 

  • 发表在 Nature Human Behaviour 的论文:Https://Www.Nature.Com/Articles/S41562-018-0399-Z#Ref-CR41

  • Nature Human Behaviour 对该研究的评论Https://Www.Nature.Com/Articles/S41562-018-0398-0

  • Science 对该研究的评论:Https://Www.Sciencemag.Org/News/2018/08/Generous-Approach-Replication-Confirms-Many-High-Profile-Social-Science-Findings

  • 华盛顿邮报的报道:Https://Www.Washingtonpost.Com/News/Speaking-Of-Science/Wp/2018/08/27/Researchers-Replicate-Just-13-Of-21-Social-Science-Experiments-Published-In-Top-Journals/?Noredirect=On&Utm_term=.1db0c58f4e64

  • 2017年Nature质疑P值可靠性的文章:Naturehttp://Www.Nature.Com/News/Big-Names-In-Statistics-Want-To-Shake-Up-Much-Maligned-P-Value-1.22375

  • 贝叶斯因子及其在JASP中的实现:Http://Chinaxiv.Org/Abs/201709.00120