相同的数据，不同的人进行分析，却得出相反的结论

2021-08-17 来源：医咖会

在科研领域，常见的一个问题是偏倚（bias）。研究者们想出多种策略来试图消除偏倚，例如，让同行来重复研究结果；临床试验中设置"双盲"。并非只有数据采集和试验执行时才可能出现问题，选择不同的分析数据方法也会影响结果。

医咖会之前推送过一篇文章“相同数据库，相同主题，两篇论文得出了相反的结论”：相距一个月发表在《Surgery》的两篇论文，均使用了NSQIP数据库2016年的数据，研究主题是针对腹腔镜阑尾切除术的患者，手术时在将切除的阑尾从切口取出体外之前，放置到取物袋中再取出体外是否会减少术后感染。论文A的结论显示取物袋可减少伤口感染率，论文B的结论则是不能减少伤口感染率。

近期，一项新研究更加凸显这一问题。这是由欧洲管理技术学院心理学家Martin Schweinsberg领导的大型研究组发表的一篇论文，他们通过在社交媒体上宣传该项目，召集了49名不同的研究者参与。

每个研究者获得同一份数据集，包含390万字的文本，是来自Edge.org网站的近8000条评论（Edge.org是一个针对知识分子的线上交流论坛）。

Schweinsberg博士要求这些研究者探索两个看起来简单的研究假设。第一个假设是，随着讨论中女性参与者的增加，某位女性参与讨论的倾向会增加。第二个假设是，更高学术地位的人会比更低地位的人说得更多。

值得注意的是，这些研究者被要求详细描述他们是如何进行分析的，并将其分析方法和流程发布到一个名为DataExplained的网站，这使得Schweinsberg博士团队能够看到各位研究者到底做了哪些工作。

网站链接：

https://dataexplained.net/

最终有37项分析被认为足够详细，可以被纳入。结果发现，没有哪两个研究者采用了完全相同的分析方法，也没有人得到相同的结果。大约29%的研究者报告说，高学术地位的人更有可能发表更多言论，有21%的人分析出的结果正好相反，其余的人没有发现明显差异。

针对第一种假设，64%的人分析表示，如果有更多女性在场，女性确实参与得更多；但有21%的研究者得出的结论刚好相反。

没有哪个分析存在客观上的错误，上述差异的原因在于不同研究者对所研究的内容选择了不同的定义，并采用了不同的分析方法。

例如，在定义女性发表言论的数量时，一些分析人员用的是每位女性发表评论中的字数，一些分析人员则通过女性参与的讨论数量，而不考虑每次讨论时发了多少字。同样，对于学术地位的定义也多种多样，有的采用职称，有的使用论文被引数量或"h指数"。

（注：h指数是一种评价学术成就的方法。h代表“高引用次数”（high citations），一名研究人员的h指数是指他至多有h篇论文分别被引用了至少h次，例如，h指数是49，表示该研究者已发表的论文中，每篇被引用了至少49次的论文共有49篇。h指数能够比较准确地反映一个人的学术成就。）

选择的分析方法也对结果有影响，但其对结果的影响比定义的影响小。一些研究者选择了线性回归分析，另一些人则选择了logistic回归或Kendall相关。

针对上述问题，得出的一个重要结论是，研究设计至关重要！Schweinsberg博士希望像DataExplained这样的平台也能帮助解决问题，让研究者准确描述他们是如何进行分析的，从而能让其他人进行审查。他也承认，重新检查每个结果是不现实的，但是如果许多不同的分析方法都指向同一个方向，那么这个结论应该就是可信的。

参考文献：

1. JAMA Surg. 2021;156(3):219-220.

2.https://www.economist.com/science-and-technology/2021/07/28/data-dont-lie-but-they-can-lead-scientists-to-opposite-conclusions