
人工智能(AI)在医疗领域的研究热度持续攀升,但与传统临床研究不同,基于AI的研究鲜少对样本量进行论证。这一缺失普遍存在于采用机器学习开发(训练)及验证(测试)疾病诊断或预后模型的研究中。
例如,一项针对医学期刊152项机器学习模型研究的综述显示,125项研究未说明样本量依据[1,2];在62项肿瘤学相关模型中,57项缺乏样本量论证[3];对606个COVID-19预后模型的评估表明,67%的模型训练或测试的样本量不足[4]。
2015年发布的《个体预后或诊断多因素预测模型报告规范》(TRIPOD)明确要求作者说明样本量依据[5,6]。美国FDA、英国药品与健康产品管理局及加拿大卫生部联合制定的《机器学习良好实践十大原则》中,样本量直接关联其中三项原则,特别强调"临床研究及训练/测试数据集需具有足够样本量,以确保结果可推广至目标人群"。
近期,《Lancet Digita Health》发表了一篇文章,系统阐释了样本量估算为何对AI研究也很重要。
样本量不足的影响与后果
数据集无法代表目标人群
即使数据集是从目标人群和环境中随机抽取的,小样本量仍难以保证其全面代表性。例如,某些特征的患者可能被遗漏,从而限制了模型在不同环境和亚组中的适用能力。这种局限性还会加剧少数群体的信息不足的问题,减少针对特定人群定制或验证模型的机会。
即使是表面看起来庞大的数据集,对于某些群体而言,有效样本量可能仍然不足——尤其是当结局事件或特定预测变量罕见时。Thomassen等[18]利用一个包含23,000多名参与者的训练数据集时发现,对于某些由特定预测变量组合定义的个体,有效样本量甚至低于30。小样本量的数据集会进一步放大这一问题。
预测变量效应及其重要性的高度不确定性
训练集的样本量小会导致所选模型预测变量不稳定,即相同规模的不同训练样本会筛选出不同的预测变量,且同一预测变量对结果的影响也可能发生显著变化。因此,试图对这种不稳定模型进行有意义的解释往往是不太可能的。因为无论是参数估计(如截距项和预测变量效应值)、变量筛选策略(如LASSO算法、递归特征消除法),还是事后解释方法,同样会不稳定并可能产生误导性结论。与回归方法相比,其他基于AI的方法通常默认允许更高的模型复杂度,因而需要更大训练样本量。
模型预测的高度不确定性
同一人群进行1000次等量样本抽样训练(每次样本量相同),基于这1000个模型对9个个体分别生成1000次预测,结果发现预测值存在显著波动(图1)。当样本量较小时(如本例中n=50或100),个体预测风险值可能在0到1之间任意波动,与其真实风险(基于大样本测算)无关;而当样本量足够大时(如n=5000),预测值的波动范围大幅收窄,结果可靠性显著提升。
图1. 基于不同训练样本量(50、100、385、500、1000和5000)建立的1000个预测模型中,九名真实风险值(大样本测算)介于0.1至0.9的个体风险估计值的波动情况
因此,预测结果不确定性过高的模型不具备可靠性,在此类情况下,若仅采用单一风险点估计值,既可能导致对患者的风险告知失准,也可能引发不当临床决策。例如,当个体预测风险的不确定区间过宽时,如"您未来一年卒中风险可能在1%至99%之间",此类预测对临床决策毫无指导意义。
预测区分度下降
基于小样本训练的模型在新数据上的预测表现,通常逊色于大样本训练的模型。由于小样本难以有效区分噪声(不可解释的误差或偶然不确定性)与真实信号(预测变量与结局的真实关联)。相比大样本数据,这类模型会存在更大的模型误差(认知不确定性),预测性能也随之降低。图2直观展示了训练样本量缩减对模型性能的影响:通过六种不同建模方法在不同训练样本量下的表现对比可见(均采用大型外部数据验证),当使用小样本而非大样本训练时,模型的C统计量中位数从0.70降至0.65,而R²(解释变异度)则从0.15减半至0.075。
图2. 箱线图通过短水平线(中位数)及散点分布,展示不同建模方法与训练样本量下,所开发模型在大型验证数据集中的预测性能波动情况
临床效用降低与决策错误风险增加
前文所述小训练样本量导致的预测性能缺陷,将直接影响临床实用性并可能造成临床危害。随着C统计量下降,模型在临床决策各风险阈值下的净获益(net benefit)也随之降低。校准不良的模型不仅会减少净获益,更可能导致次优决策,如过度治疗或治疗不足。
训练样本量小会削弱模型的临床实用性:相较于现行临床实践,这类模型既降低决策整体获益,又增加错误临床决策风险,因此不具备临床应用价值。
测试与验证性能的高度不确定性
模型在训练数据之外的其他数据集上进行评估时,需要足够大的样本量才能获得精确的性能指标(包括校准度、区分度和临床效用)。然而,现有文献中的许多验证研究,样本量明显不足,导致性能评估结果出现过宽的置信区间甚至不合理的数据,进而对模型可靠性或优越性作出误导性结论。
例如,一项采用XGBoost算法(含48个预测变量)开发COVID-19患者死亡风险预测模型的研究,宣称其模型具有高精度。但该验证数据集仅包含279名受试者(其中仅7例死亡),却报告了C统计量为1(95%置信区间为"1.000-1.000"这一不合理结果),且未评估校准度。另一项研究在验证队列仅59人(19例发生目标事件)的情况下,仍声称模型具有良好的校准能力——尽管校准图中明显存在严重失准问题。
小样本量容易导致夸大性声明(如称模型已通过"验证"),这可能促使临床实践中过早或错误地采用有缺陷的预测模型。


确认删除