为逃过查重检测,一篇充满诡异措辞的论文诞生了
【2025年8月8日更新:值医咖会9周年之际,赶快去医咖会APP限时领取基础会员权益,含28张基础课程券,各种科研课程随心看】
注:本文整理自知名科学侦探Elisabeth Bik的博客文章,原文题目是“Discontinuous ridiculous stools – a preprint full of tortured phrases and stolen data”。
“Patients with provocative entrail illness unclassified gave to crisis division a 3-day history of sickness, retching, migraine and irregular stomach torment alongside discontinuous ridiculous stools as of late.(患有未分类挑衅性内脏疾病的患者向危机部门陈述了为期3天的病症:恶心、呕吐、偏头痛及不规则腹痛,近期伴有不连贯荒谬的便血)”
若您无法理解上面这句话,请不必担心——大家都一样。
扭曲短语
上面的文字充斥着“扭曲短语”(tortured phrases),这是作者试图掩盖抄袭行为常用的一种文本改写方式。为逃过查重工具检测,他们通过“同义词替换软件”来处理复制过来的内容,导致生成荒谬甚至可笑的短语。
常见的扭曲短语包括:
- 用“Counterfeit consciousness(伪意识)”替代“artificial intelligence(人工智能)”
- 用“Profound neural organization(深刻神经组织)”替代“deep neural network(深度神经网络)”
- 用“Colossal information(巨型信息)”替代“big data(大数据)”
- 用“Bosom peril(胸部危险)”替代“breast cancer(乳腺癌)”
- 用“Haze figuring(雾测量)”替代“cloud computing(云计算)”
此类扭曲短语由Guillaume Cabanac、Cyril Labbé和Alexander Magazinov在2021年预印本《Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals》中首次提出[1]。
他们创建的“问题论文筛查数据库”目前已收录超过21,000篇包含五处以上此类短语的论文。大多数论文发表于2020年代初,2022年后频率略有下降——可能因为ChatGPT等生成式人工智能工具能更有效地重写并隐藏抄袭文本。
来自“问题论文筛查数据库”的图表,显示每年包含至少5个扭曲短语的论文数量链接:https://dbrech.irit.fr/pls/apex/f?p=9999:24::IR_years
一篇充满诡异同义词替换的预印本
在Google Scholar中检索扭曲短语“provocative gut illnesses”(常用来替代“炎症性肠病”,IBD),博客作者在medRxiv预印本库中发现了一篇“宝藏文章”:Baqir Ali Khalid等人所著的《Significance of headache in inflammatory bowel diseases》[2],最初于2023年2月上传至medRxiv。七名作者来自巴基斯坦的五所大学和医学院。
链接:https://www.medrxiv.org/content/10.1101/2023.02.05.23285412v1
文章中,作者声称收集了20名IBD患者的“数据”,这些患者因头痛和便血就诊于急诊科。
文本极度晦涩,存在大量过度同义替换的句子。试试理解以下表述:
- Cerebral vein apoplexy can be deadly and finding is trying as side effects are vague(脑静脉中风可能是致命的,并且由于症状模糊,诊断十分困难)
- We might want to urge clinicians to continually reexamine their choices, particularly in the event that there is nonappearanceof clinical improvement after a generally deep rooted treatment(我们可能想要敦促临床医生持续重新审视他们的选择,特别是在经过一段通常根深蒂固的治疗后仍缺乏临床改善的情况下)
- EIMs address the primary driver of horribleness in Compact disc(EIMs应对了Compact disc中恐怖性的主要驱动因素)(注:作者可能指克罗恩病Crohn’s Disease)
- In the last option study, the chances proportionwas 2.66 (95% certainty stretch = 1.08-6.54) contrasted with everybody(在最后一项研究中,与所有人相比,机会比例为2.66 [95%确定性区间=1.08-6.54])(注:Chances proportion = odds ratio; certainty stretch = confidence interval)
将单个病例报告篡改为20名患者的研究
在这个预印本中,作者详细描述了20名“挑衅性内脏疾病(provocative entrail illness)”(即炎症性肠病)患者:所有人均有3天病程、近期有“不规则腹痛伴不连贯荒谬的便血(irregular stomach torment alongside discontinuous ridiculous stools as of late)”,且均在两天前接触过“儿童(youngsters)”。
等等,20人全部如此?
其血液检测结果未以均值呈现,而是以具体数值列出:“入院当日血检显示C反应蛋白86 mg/L,白细胞计数正常,无缺铁性贫血(血红蛋白110 g/L)。肝胰酶、肌酐、尿素电解质等指标正常。白蛋白偏低(26 g/L),与数周前一致。”
这听起来更像单次血检结果,而非20名患者的数据集。
原文不难追溯到(记住:存在扭曲短语的文本为抄袭,将其还原为标准生物医学表述即可定位被抄袭的文章)。
该奇特论文抄袭的源头是Orfei等于2019年发表于《BMJ Case Reports》的IBD患者病例报告[3]。预印本论文的作者似乎篡改了该病例报告,伪造成20名患者的研究。
下图并排对比2019年《BMJ Case Reports》论文(左)与2023年medRxiv预印本(右)。已对部分句子颜色标注以便对照。
左:2019年《BMJ Case Reports》的原文;右:2023年medRxiv预印本
还抄袭了美国健康访谈调查研究的数据
该预印本文章继续展示“20名患者”的“数据”。表1和表2列出吸烟状况、BMI、偏头痛等特征。文中写道:“经年龄调整的偏头痛或严重头痛总患病率为15.4%(n=9,062),IBD患病率为1.2%(n=862)”。20名患者的研究出现如此巨大的“n”,极不合理。
使用表1的部分数据,也可以轻易定位到源头:所有数值与Yong Liu等在《Headache》(2021)的研究完全一致[4]。该研究基于2015-2016年60,436名美国成年人的国家健康访谈调查(NHIS)数据——远不止20人!
下图并排对比2021年NHIS数据与2023年预印本,数值完全相同。
左:2021年《Headache》的原文;右:2023年medRxiv预印本
该预印本可能还剽窃了其他论文,但当前证据已确凿:数据至少复制了两篇论文,并通过同义词替换掩盖抄袭。
目前博客作者已在medRxiv网站留言并向预印本平台组织举报了这篇“杰作”。
参考文献:
1. https://arxiv.org/abs/2107.06751
2. https://www.medrxiv.org/content/10.1101/2023.02.05.23285412v1
3. https://casereports.bmj.com/content/12/1/e227228.long
4. https://pmc.ncbi.nlm.nih.gov/articles/PMC8289487
文章整理自:https://scienceintegritydigest.com/2025/07/28/discontinuous-ridiculous-stools-a-preprint-full-of-tortured-phrases-and-stolen-data/#more-4053
