论文中统计描述要注意的诸多细节,听听杂志主编怎么说!

专题合集更多教程

科研论文是呈现研究成果的一种最好的表现形式,其中数据分析的结果则是论文中最为核心的一部分。每当我们辛辛苦苦写好文章,自信满满投稿后,有时候却连Editor初审的第一关都过不了,甚至惨遭Editor“秒拒”。 Editor虽然没有研究的原始数据,但是他们都有一双火眼金睛,常能发现很多平时我们没有注意到的错误和问题。

 

2017年4月,The International Journal of Occupational and Environmental Medicine(The IJOEM)杂志的主编Farrokh Habibzadeh教授发表了一篇名为《Statistical Data Editing in Scientific Articles》的文章[1],针对在论文中进行数据编辑时常犯的错误和需要注意的地方,进行了详细的说明,让我们来一起看看Editor怎么说。

 

一、统计方法描述

 

一般情况下,在论文方法(Method)的最后一部分,要求作者对统计分析方法进行详细的描述。通常包括几个内容:

 

1、数据分析所使用的软件及其版本、所属公司、公司所属地等信息。例如:The data were analysed by SPSS version 24.0 for Windows (SPSS Inc., Chicago, IL, USA).

 

2、数据结果的呈现和描述形式。例如:Continuous variables with normal distribution were presents as mean±standard deviation (SD); non-normal variables were reported as median (interquartile range).

 

3、数据分析时所用到的统计检验方法。例如:Mean of two continuous normally distributed variables were compared by independent samples Student's test.

 

4、设定的假设检验水准。例如:A value of P<0.05 was considered significant.

 

注意:在统计方法描述部分,有些作者不管什么类型的研究论文,都复制粘贴使用同一个固定的描述模板,这样很容易被Editor发现,统计方法必须要根据自己数据的实际情况,以及真正所使用到的统计方法来进行介绍,万不可张冠李戴。

 

二、数据的精确度

 

有些作者在结果描述中太过于追求数据的精度,例如一篇文章中这样描述:The mean work experience of studied participants was 20.365 (SD, 4.35) years。

 

其中有2个问题:首先,均数和标准差的小数位数在呈现时没有保持一致;其次,工作经验的均值精确到了3位小数,这就意味着在对工作经验这个变量进行调查时,精确到了以“小时”为单位,而在实际的调查过程中一般最多精确到以“月”为单位,因此建议此处的描述修改为20.4 (SD, 4.4) years。

 

一般情况下,在描述均值、标准差、中位数、四分位间距等指标时,建议小数位数不要超过原始测量数据的小数位数

 

对于百分位数的描述,当分母小于100时,一般建议百分位数不保留小数,而当分母小于20时,就不再建议使用百分比来进行描述了。例如:Of 15 patients studied, 26.67% presented with fever,此处百分位数计算的分母为15<20,因此建议修改为:4 of 15 patients presented with fever。

 

但有时在不易获得分母具体数值的情况下,可以根据百分数和绝对数的大小来进行辅助判断。当百分数大于绝对数时,提示分母小于100,此时百分位数可以不用保留小数。例如:“31 (42.47%) patients……”,此时百分数42.47%大于绝对数31,提示分母小于100 (实际上分母为73),则此处建议修改为:“31 (42%) patients……”。

 

三、常用的统计描述指标

 

对于正态分布的资料,一般采用均值 (Mean) 和标准差 (Standard Deviation, SD) 来描述数据的集中趋势和离散情况,而对于非正态分布的资料,常用中位数 (Median) 和四分位间距 (Interquartile Range, IQR) 来描述数据的集中趋势和离散情况,这就要求要首先对数据资料的分布特点进行检验。

 

但是在多数论文中,作者并未直接给出正态性检验的结果。在无法获得原始数据的情况下,我们可以根据标准差和均值的大小进行初步判断。若标准差超过均值的一半,则提示数据很有可能是非正态分布,可以参考前期推送的有关数据正态性检验的内容进行学习。

 

由于标准误 (Standard Error of Mean, SEM) 比标准差小,有些作者为了掩盖数据非正态分布的特点,错误地将标准误作为描述数据离散趋势的一个指标。但实际上,标准误反映的是均数抽样误差的大小,而非样本资料的离散情况,此时用标准误来衡量数据资料的离散趋势是不正确的。

 

95%置信区间(95%CI),可以用均值±1.96*标准误来进行计算。一种情况,当报告某种疾病的患病率时,建议同时报告其95%CI。例如:26 of 300 studied participants had brucellosis translating to a prevalence of 8.7% (95%CI, 5.5% to 11.9%)。根据95%CI的计算公式,数据资料的均值约等于95%CI上、下限的均值,如8.7%=(5.5%+11.9%)/2, 以此来帮助判断结果是否一致。

 

另一种情况,多见于描述RR (Relative Risk) 值或者OR (Odds Ratio) 值时,需要报告其95%CI。例如:Smoking was associated with a higher incidence of lung cancer (OR, 2.6; 95%CI, 1.3 to 5.2)。此时RR或OR值的平方等于95%CI上、下限的乘积,如2.62=1.3*5.2,以此来帮助判断结果是否一致。

 

四、诊断试验的结果报告

 

对于诊断试验,通常在论文中需要描述的指标包括灵敏度、特异度、阳性预测值、阴性预测值及其95%CI等。当使用ROC (Receive Operating Characteristic) 曲线进行分析时,则还需要报告曲线下面积及其95%CI、截断值 (cut-off point)等信息。

 

五、测量单位

 

准确描述测量单位也是非常重要的。例如常常在文章中见到类似的描述:Serum cholesterol levels was 5.22。缺失相应的单位“mmol/L”,这种遗漏的情况在表格及图的坐标轴中也经常出现。大多数学术杂志都推荐使用国际单位(SI),因此当某个指标有不同的计量单位时,也建议统一换算为国际单位。 

 

六、P

 

P值的描述在论文中也常出现各种问题,一些杂志仅要求在描述P值时给出其判断标准,例如:P<0.05, 或non-significant,而多数杂志则要求在论文中报告准确的P值。一般情况下描述P值时建议不要超过3位小数,例如P=0.0123,可修改为P=0.012。但有时P值很小,例如P=0.0000123,只若保留三位小数,即P=0.000,此时建议将其描述为P<0.001。值得注意的是,只有当进行假设检验时才需要提供P值。

 

此外,当能够同时获取95%CI和P值时,一般建议仅报告95%CI即可,因为P值仅提示假设检验有无统计学显著性,而95%CI还可以直观的显示效应值的范围。例如:Smoking was significantly associated with a higher incidence of lung cancer (OR, 2.6; P=0.04),建议修改为:Smoking was associated with a higher incidence of lung cancer (OR, 2.6; 95%CI, 1.3 to 5.2)。

 

对于P值的解释一定要谨慎,在设定检验水平α为0.05的情况下,特别是当P值在临界值附近时,例如P=0.049时认为有统计学显著性,而P=0.051则认为无统计学显著性,下结论的时候要谨防产生I类错误和II类错误,有可能会做出假阳性或假阴性的结论(参考前期推送的有关介绍I类错误和II类错误的内容)。

 

通常把这种情况描述为部分显著性(partially significant)或边缘显著性(marginally significant)(可参考前期推送的有关P值100种表达方法的内容进行描述)。如果没有充分的证据证明该效应值在人群中实际上存在显著性,而阴性结果可能是由于抽样误差造成的,那么我们就应该遵守游戏规则,当设定α=0.05时,若假设检验得出P≥0.05,即认为无统计学显著性,作者可以在论文的讨论部分对其原因进行详细探讨。

 

七、生存分析

 

Cox比例风险模型(Cox proportional hazard model)以生存结局和生存时间为因变量,在校正多种混杂因素后,用来分析研究因素对于结局的影响。需要注意的是,Cox模型的基本假定是比例风险假定(PH假定),只有在满足PH假定的前提下,基于此模型的分析才是可靠有效的,然而对于该假定的检验往往被研究人员所忽略。

 

检验PH假定最简单的方法就是观察按照研究变量分组后的Kapla-Meier生存曲线,若生存曲线明显交叉,则提示不满足PH假定。具体可以参考前期推送的有关PH假定检验的内容进行学习。

 

以上是杂志主编针对论文中进行数据编辑时,常出现的错误和需要注意的地方总结的几项心得,希望能够帮助大家避免再犯此类的错误。小伙伴们在撰写文章和进行投稿时,还有哪些体会和感受值得引起大家注意的,也欢迎和我们一起来分享哈。

 

参考文献

[1] J Korean Med Sci 2017; 33: 1072-76

描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
我要提问
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
提交问题
描述问题
选择一个标签 (请选择一个与您问题最相符的标签)
    提交问题