如何在文章中正确表达你采用的统计学方法

专题合集更多教程

作者:冯国双;文章来源:“小白学统计”公众号。感谢作者授权。

 

我估计能看我这个文章的人,应该绝大多数都需要写文章,不管是出于什么目的。可能很多人都不是统计学的科班出身,鉴于本人在审稿中主要是统计学部分,因此想针对这方面稍微谈一下如何在论文中规范书写统计学方法部分,我想这可能是很多临床大夫头疼的。

 

在写之前,先看一下国内杂志文章对统计学方法的描述:

 

 

估计你一看到上面这段话,心里可能会不由自主地一惊:这不我写的吗?你咋会有这段话呢?

 

错!这不是你写的,这是国内大多数人写的,或者说,这是你抄的。据我所知,很多临床大夫在写统计学方法部分时,都是从别的相似文章摘抄一下,反正用的都是同一个方法,差别不到哪儿去。

 

好吧,我们再看看国外杂志文章写的统计学方法:

 

 

我估计你还没看完的时候就已经晕了,肯定在想,这是人写的吗?你想要我的命吗?我绞尽脑汁也写不出这么多啊,我又不是文科生。

 

其实你也可以写出这么多。所谓写不出来,我想不是因为脑子不够用,而是因为素材不够。如果你的研究本身就没有这么多内容,那你肯定写不出来。仔细看看国外一些顶尖杂志的统计学部分,他们其实包含的内容都差不多,主要就是:

 

(1) 样本量是如何计算的。如果你只是拍着脑袋想出来的,当然就没法写这部分,只能含含糊糊地蒙混过关。

 

(2) 随机是如何实现的。这可能包含很多详细的内容,比如,如何设置的随机分配序列、有没有设置区组、分配隐藏、有没有盲法,等等。如果你文章中的“随机”其实实际中只是“随意”,那恐怕也没有足够的勇气去在论文中展示你的随机过程。

 

(3) 主要分析指标。有时可能需要区分主要分析指标和次要分析指标,这些指标是如何定义的,是分类还是连续。如果是分类,是如何划分的。其实这部分你还是可以写的详细些,可惜国内很多文章对这个提的都太少。

 

(4) 统计分析方法。这是国内文章的重头戏,大多数人只写这一点,但即使是这一点,仍然明显不足。比如很多人都会写,连续资料采用t检验。但实际上连续资料一定是用t检验吗?你有没有检查数据的正态性呢?分类资料一定用卡方吗?你的结局是否是有序的?等等这些,几乎很少有文章提到,而这些其实都是最基本的,也都是可以写正确的。

 

(5) 统计软件和P值的交代。统计软件一般大家都会写,尽管你不一定真的用你写的这个统计软件分析的。P值就不一定了,很多人习惯写的就是P<0.05认为有差异之类的。实际上P值不是这么简单,也不是一概而论,在不同分析中可能需要调整,比如多重比较的情况下。

 

(6) 其它。有时有的文章会根据自己研究的实际情况,加上其他一些分析内容,比如事后的亚组分析、有没有进行多重比较、P值是如何调整的,异常值是如何处理的,等等。凡是文章中涉及的,都会在这里交代的很清楚。

 

很多人可能会觉得,我没必要在这部分花这么大精力,随便写写就行了,结果写的漂亮一点,方法学部分差不多就行。而事实上,方法学部分才是审稿人最关注的,尤其你投国外杂志,估计很多人都有这种经验,越是你想掩盖的,往往越会被提问。

 

不要觉得含糊一下就能过去,事实上,审稿人的眼睛是很尖锐的,一眼就能看出你想掩盖什么。反而是越是大大方方展示出来,写的很详细的,那就没事了。关键问题是,你敢大大方方地展示出来吗?或者说,你有这种底气吗?你前期的研究有这么细致吗?

 

所以说到底,其实国内很多文章为什么写方法学这么少,归根到底还是因为做的少,当然就没东西可写。不过即使有些你没的可写,但起码在统计学方法描述部分可以写的详细一些,这些是跟你的前期工作量关系不大的。

 

下面是国内某篇文章投稿,初稿是这样的:

 

应用Excel 2010及SPSS19.0软件进行数据处理及统计,采用非参数T检验及卡方检验。P<0.05为差异有统计学意义。

 

后来我给他改成了这样:

 

本研究中连续资料不服从正态分布,因此采用中位数(下四分位数-上四分位数)形式描述,组间比较采用Kruskal-Wallis秩和检验,如果组间有统计学差异,进一步采用DSCF法进行多重比较。

 

分类资料采用例数(百分比)的形式描述,组间比较采用χ2检验,如果组间差异有统计学意义,进一步的两两比较采用Bonferroni法。所有统计分析均采用SAS9.4软件实现,三组间比较以双侧P<0.05认为差异有统计学意义,χ2检验的两两比较以P<0.05/3=0.017认为差异有统计学意义。

 

我想,对于统计学方法部分,起码你应该告诉读者:

 

你的数据是怎么描述的(这样当我看到你的数据的时候,我知道这是中位数,而不是均值)。

 

你的组间比较方法是什么,两两比较用的是什么方法(这样我审稿的时候,才能一眼看出你用的方法对不对)。

 

你的连续资料是不是服从正态分布(这样我才知道你用的方法是否合适,描述的指标是否准确)。

 

如果多组做了两两比较,你的P值是如何调整的,两两比较用的方法是什么(否则我怎么知道你的结果是不是假阳性啊?)。

 

你的检验水准是双侧但是单侧(这个就是加两个字的事情,但却可以让你的描述更准确)。

 

其实还有很多(比如你的数据有没有缺失值,是怎么处理的?有没有分亚组分析,如果分了,P值是怎么分配的?有没有对变量进行变换,如果有,用的何种变换?),但对于国内文章来说,大家有很多东西可能是永远不会写的,但起码有些关键地方还是需要交代清楚的。也许随着科研方法的进一步规范,统计学方法也会更加规范,那时统计学方法的描述就不是一段话这么简单了。

 

扫码关注“医咖会”公众号,及时获取最新统计教程!

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题