本文转载自《中华流行病学杂志》,来源:闫明海, 胡令乾, 胡泊, 等. PROBAST+AI解读:基于回归或人工智能方法的预测模型质量、偏倚风险和适用性评估工具[J]. 中华流行病学杂志, 2026, 47(5): 958-964. DOI: 10.3760/cma.j.cn112338-20250903-00624.
临床预测模型可为医生和患者提供共同决策、风险分层与管理,以达到降低疾病负担的目的[1]。几十年来,统计学家开发并整合多项模型建立的算法,其具体应用在两类临床场景:若评估当前患有某疾病的概率,则为诊断模型;若预估未来某不良事件的发生风险,则为预后模型[2]。建模方法学主要基于传统回归分析的框架,比如基于logistic回归模型构建分类变量为结局的模型,采用Cox比例风险回归模型构建带有生存时间的结局变量的模型。然而,近十年由于机器学习算法的高速发展,复杂预测模型研究呈现指数级增长[3]。
预测模型偏倚风险评估工具(PROBAST)2019年发表在《英国医学杂志》上,目的是帮助研究者评估诊断或预后模型的偏倚风险大小和适用性[4-5]。偏倚指预测模型对靶向人群预测性能的估计值的系统误差,可能导致模型真实性能估计过高或过低[6]。但PROBAST 2019难以完全覆盖人工智能(AI)、机器学习等复杂模型的偏倚风险评估要求[7]。因此,亟需新的可以评估AI模型质量风险的工具出现,补充细节规范。
本研究旨在对最新版PROBAST+AI进行解读,此工具用于系统评估基于回归或AI方法的多因素预后或诊断模型的偏倚风险和适用性[8]。在原有评估传统模型问题的基础上,PROBAST+AI新增了AI和机器学习模型的评估需求,使各类模型都能在规范框架下进行标准、透明的评价。
一、PROBAST+AI产生背景
PROBAST+AI保留了PROBAST 2019对传统回归模型的评估条目,并进行了优化和部分合并,扩展了AI和机器学习方法,并对数据来源、分析方法等提出了新要求。PROBAST+AI的开发团队具有丰富的预测模型研究、系统综述和工具应用经验。
首先,研究团队通过系统综述回顾了AI模型存在的普遍质量担忧,如样本量缺乏、缺失数据不恰当、忽略过拟合风险和模型性能评估表浅等[9-10]。
其次,团队在PROBAST 2019基础上,提出了AI模型的新候选条目,并结合多轮Delphi调查和专家讨论。Delphi调查共3轮,涵盖全球六大洲近300名专家,确保不同领域和机构的意见多元性。
最后,基于Delphi调查精炼条目,形成了新版PROBAST+AI[8]。无论是模型开发还是验证,新工具在4个领域提出了质量评价和偏倚风险判断类目,兼顾严谨性和实用性。其意义在于促进未来AI预测模型研究方法的一致性和标准化,提升临床可解释性与信任度。
二、PROBAST+AI内容介绍
PROBAST+AI 明确区分了模型开发和验证两个阶段,分别聚焦于评估模型开发的方法学质量和模型性能评估的偏倚。较先进的是,PROBAST+AI关注了算法偏倚和公平性问题,其公平性问题贯穿整个工具。工具涵盖的4个领域包含34个提示性问题(其中16个用于模型开发,18个用于模型评估),以及6项适用性评估指标(模型开发与模型评估各3项)。前3个领域在提示性问题的设计上具有相似性,但其侧重点有所不同,分别针对模型开发和模型评估2个阶段进行区分。具体而言,这些领域依次关注了开发方法的质量(对应开发阶段)、偏倚风险(对应评估阶段)以及适用性。
4个领域:
①研究对象:关注模型开发或评估过程中的数据来源及人群特征选择;
②预测因子:涉及变量定义、测量等;
③结局变量:聚焦于主要终点的定义与评估;
④统计分析方法:侧重于统计分析的合理性,如缺失数据是否处理恰当等。统计分析领域在模型开发方面设置了5个提示性问题,而在模型评估方面则有7个,以支持偏倚风险的全面判断。
三、PROBAST+AI评估步骤
PROBAST+AI工具评估一般分为4个步骤:明确评估目的;确定设计类型;开展评估(最好背对背评估);综合定性判断。
明确评估目的:基于PICOS(研究对象、待评估模型、对照、结局、研究设计)研究框架,明确模型评估目标是关于本次评估的临床意义。此外,评估者需参考Cochrane预后方法组指南与CHARMS清单,以增强评估规范性[11]。
确定设计类型:第一步是区分模型类型为开发型(包括构建模型或更新模型)、验证型(内部/外部验证)或混合型。开发研究需使用新数据集构建模型或优化模型(如在原有模型基础上增减预测因子),验证研究需基于独立的第三方数据检验现有模型效能表现。评估者需根据研究选择对应标志性问题,不得混淆。模型评估区分了对模型表观性能的估计、内部和外部验证性能。
点对点评估模型质量偏倚风险和适用性:针对模型开发与验证分别进行评估。①研究对象:评估研究对象的代表性、数据采集流程是否规范与研究场景适配度;②预测因子:重点审查预测变量定义、预处理方法和时序合理性;③结局:研究终点的定义需明确、测量方法需保证科学、可复现;④统计分析:重点审核分析过程是否引入了新的偏倚。以上维度均通过信号问题(是/可能是/可能不是/不是/无信息)进行评判,最终综合得出各维度偏倚风险(低/高/不确定)。需要特别关注AI模型与传统回归模型在特征选择、过拟合管理等方面的差异。
综合定性判断:整合前三步的结果,给模型评价确定最终类别:①开发质量:常反映模型开发的严谨性;②验证偏倚风险:表达了性能评估是否客观公正(低/高/不确定);③适用性大小:评价模型与未来真实世界场景的适配度(高/中/低)。
四、PROBAST+AI部分条目解读
PROBAST+AI报告规范协作组对清单进行了详细说明[8],本文选取模型开发及模型验证的质量、偏倚风险和适用性评估条目进行重点解读(表1,2)。


1. 偏倚风险评估
(1)研究对象:模型开发和验证部分均设有3个标志性问题,分别集中在数据来源、研究设计和纳入/排除标准是否合适。
①在数据来源层面,应来自与目标人群匹配的真实世界数据(如电子病历、注册登记、队列数据),避免选择偏倚。此外,如果是临床预测模型,通常不能只来自单一中心的高度筛选后的人群。
②关于研究设计,如果原研究设计严谨,比如随机对照试验、临床注册研究、前瞻性队列研究或病例对照研究,则认为能避免数据缺失与选择偏差[12],判断为“是”或“可能是”;反之,若数据来源于回顾性队列研究、横断面研究等,则可判断为存在偏倚风险,即“可能不是”或“不是”;若无相关信息则判断为“无信息”。
③关于纳入/排除标准,评估人员应该关注纳入/排除标准与研究的目标人群的关系,不能因纳入/排除标准问题导致预期的目标人群代表性受限。例如,若用于诊断的预测模型的研究对象不是患者群体、临床预后模型的研究对象是已经患有疾病或有患病风险的人群、特定脆弱人群亚组被排除(如老年人、孕妇等);若未报告特定信息,则为“无信息”。
(2)预测因子:模型开发和验证部分均设有4个核心问题:预测因子的定义和一致性、预处理方法、预测因子与结局的独立性、时间先后性。
①对所有参与者而言,预测因子的定义和评估方式都应保持一致,否则会由于差异影响结果引起较高的偏倚风险。如果对不同参与者采取相同的预测因子定义和评估方法,如血压统一单位、检测标准,则可判断为“是/可能是”;否则为“可能不是/不是”;若未报道相关信息,则评为“无信息”。
②所有参与者对预测变量的预处理方式应保持一致且透明,如果不同人群采用不同预处理,会引入系统偏倚。如果对参与者采取相同的预测因子预处理方法,如缺失值填补、标准化和编码方式等,则可判断为“是/可能是”;若未报道相关信息,则评为“无信息”。
③预测因子评估是要在对结局数据表示盲态的情况下进行,即预测因子与结果保持独立性。预测因子的提取必须在不知道结局的情况下完成,避免“数据泄露”[13]。例如:模型使用随访后才能获得的变量(如死亡后实验室数据),就不适用于实际预测。前瞻性研究可以避免部分该风险,而横断面或者病例对照研究因其设计特点,则更难避免此类偏倚。如果模型开发人员在评估预测因子时对结局数据表示未知,则判断为“是/可能是”;若未报道相关信息,则评为“无信息”。
④必须确保预测因子在临床实践中“当时可得”,避免“未来信息”影响模型。模型在实际应用时,所包含的预测因子在当时就已具备相关数据,否则判断为“可能不是/不是”; 若未报道相关信息,则评为“无信息”。
(3)结局:PROBAST+AI精简了结局评估的部分,对原有的多个问题进行了整合概括。
模型开发和验证部分均设有4个核心问题:结局定义、一致性、独立性、时间间隔。
①结局定义必须恰当公正,需符合临床研究常用指南标准,例如全因死亡、癌症生存时间等。如果定义存在模糊区域或与不符合临床实践指南,则未来推广性将受限。若评估恰当,则可判断为“是/可能是”;否则为“可能不是/不是”;若未报道相关信息,则评为“无信息”。
②所有参与者结局的处理应保持一致(包括但不限于定义、评估方法等),最好采用同样的方法。
③应在未使用或不知道预测因子数据的情况下进行结局评估,这应作为一项质量控制措施,保证自变量和因变量是独立的,否则会引入观察者偏倚。这与临床试验中盲法类似,在真实世界研究中,可以采用第三方盲态事件评审委员会的形式对结局进行独立审查,以确保研究结果的可信性[14]。
④预测因子和结局之间要有合理的时间间隔,否则模型预测结果在真实世界中无法区分因果关系。时间间隔需要专业的临床知识或系统文献回顾来明确。如果间隔合理,可判断为“是/可能是”;否则为“可能不是/不是”;未报告时可判断为“无信息”。
(4)统计分析:模型开发包含了5个关键性问题:样本规模、预测变量处理、缺失和删失数据、类别不平衡与校准、过拟合风险。
①需提供充分证据证明样本量规模合理。通常,AI或机器学习预测模型因复杂度高,其需要的样本量远超传统的logistic回归模型或比例风险回归模型[15]。若开发者未提供样本量依据,则读者无法确定模型的稳健性指标是否可外推。Riley等[16]在传统的每个预测因子至少需要10个事件的经验法则基础上,提出了四步骤样本量计算方法,不仅保证了模型截距的准确性,而且采用了惩罚或正则化收缩的方法保证了模型的表观性能。
②连续预测变量和分类预测变量的处理应恰当。连续变量应慎重考虑是否分组、标准化,分类变量必须采用统一可溯源的编码。若随意分组或存在错误编码,会造成信息丢失,降低信噪比。
③模型开发需谨慎考虑存在缺失数据或删失数据。缺失数据或删失数据可以采用特定的模型,例如Cox比例风险回归分析、时间依赖建模等[17]。缺失数据是造成选择偏倚的常见原因,因此需要透明报告缺失比例及处理办法。
④对于类别不平衡问题需提供解决方法,区分是对模型本身还是预测值进行了重校准。通常,类别不平衡多见于稀有结局。开发者不应只是单一“重采样”,还需检查模型预测值是否重校准。如不及时处理该类问题,会造成预测值不准确风险[18]。
⑤开发者需应对潜在的模型过拟合问题。过拟合的常见处理方法是采用N折交叉验证、弹性网络正则化等[19]。此外,该过程应该透明,严格避免在看过数据集之后调整参数。
模型验证有7个关键性问题:避免表观性能评估、样本量、缺失数据或删失数据、类别不平衡、数据安全、重采样方法和性能评估全面性。
①避免仅基于模型在训练集上的表观性能进行评估。模型评估不能仅停留在准确性评价层面,必须采用更全面指标,包含区分度(如受试者工作特征曲线下面积)、校准度(如校准曲线的斜率和截距)、临床净效益(如临床净获益曲线)等,增加证据可信程度。
②同模型开发,样本量也是模型验证的重要评估指标之一。模型的性能应重点报告外部验证数据集上的指标,如果外部验证样本过小,将造成结果不稳健。
③缺失数据和删失数据同样应恰当处理。若仅开发阶段处理缺失数据,会造成开发和验证数据集人群不一样。
④若因类别不平衡问题采用了特定解决方法,评估应在未对不平衡情况进行校正的数据集上进行。如果开发阶段做过采样,评估时必须回到原始分布,因为只在平衡数据上评估会严重高估表观性能。
⑤若数据拆分用于生成训练集、测试集,应报告数据泄露避免的质量控制措施。即训练集和测试集要彻底独立划分。且注意,预处理(如标准化、特征选择)不能仅在训练集上拟合。
⑥如果采用重采样方法(如10折交叉验证或 Bootstrap 1 000次重采样)评估模型性能,应完整重现模型开发的所有步骤,即每次都完整重复建模流程,避免产生模型评估中的乐观偏倚。
⑦对模型的预测性能要进行恰当评估。除区分度,还需报告校准度来比较预测概率和实际发生率,报告临床实用性以为真实世界应用打下基础(如决策曲线分析、净重分类指数)。应禁止性能报告单一,因为其无法支撑实际应用。
2. 适用性评价
(1)研究对象:模型开发阶段应重点关注纳入的研究对象是否与未来预期场景一致。若模型的目的是预测住院患者的疾病风险,但开发时期只纳入了社区医院患者,这会造成与未来应用人群不符,判断为存在低适用性。同样,模型验证阶段也应注意验证集是否代表未来实际使用人群。
(2)预测因子:开发时应注意选择的预测因子(定义、测量、预处理、评估点)是否与模型目标场景一致[20]。若模型使用了常规临床实践中无法获取的指标(如影像组学数据),则可判断为低适用性。同样,验证时需在和未来使用一致的场景下收集预测变量。例如,开发模型时用蛋白组学测序预测因子,验证时却仅用某些转录组学替代指标,会导致模型性能和预期应用不一致。
(3)结局:模型开发和验证时结局的定义、测量和时间点与实践问题要相符。例如,开发阶段主要终点是“1年全因死亡”,而实际需要预测的是“90 d 死亡”,则存在结局适用性不足。
(4)统计分析:在开发阶段,适用性关注点相对较弱,但模型处理方式要贴合未来应用场景。若开发模型时使用的数据处理方法复杂、算法难以复现,则在实践中难以推广,适用性欠缺。验证时应采用符合临床实践的评估指标。
五、实例分析
本文以2023年发表在《英国医学杂志》上的乳腺癌预测模型为例[21],进行偏倚风险评价,为读者更好地使用本工具提供示例。该研究基于QResearch初级卫生保健数据库,纳入超过14万名乳腺癌患者,预测乳腺癌患者的中长期死亡风险,并详细比较了基于传统回归的预测模型(Cox比例风险回归模型和竞争风险回归模型)和机器学习预测模型(XGBoost、神经网络)的性能。本研究在研究对象来源、预测因子、结局等各个方面表现均较优,统计分析思路严谨,且模型开发和验证过程中保持高透明度,符合PROBAST+AI工具建议的“低偏移风险”标准。详细评价条目见表3。

六、总结
与PROBAST 2019相比,PROBAST+AI在应对AI预测模型的挑战方面进行了系统性改进。在预测因子领域,PROBAST+AI进一步强调了数据预处理过程的严谨性与统一性,明确要求所有参与者的预测变量应遵循相似的预处理流程规范;同时,新增了对预测因子临床实际应用的评价维度,强调在实际应用时,预测因子应为临床实践中常见且易于获取的数据。统计分析领域的信号问题明显扩充,新增了关于数据集划分的评估要求,在数据划分为开发集和验证集时,须警惕潜在的数据泄露风险;丰富了内部验证过程中的偏倚风险评估条目,特别指出在使用重采样方法评估模型性能时,必须完整复现模型开发阶段的所有关键步骤;此外,加强了对类别不平衡问题的关注,当建模过程中采取了应对类别不平衡问题的解决方法,则要求评估者进一步评估相关统计分析是否基于未经类别校正的数据集进行。在参与者与数据来源、结局2个领域的信号问题方面,新工具延续原有框架,未作重大调整。本次更新还将模型开发和验证环节的评估问题进行了明确区分,不仅使新工具逻辑更加清晰,也响应了在当前预测模型广泛应用的趋势下,加强对模型验证工作进行规范和评估的迫切需求。
PROBAST+AI已经全面取代了PROBAST 2019,并标志着科学研究对预测模型质量风险的关注迈入了新阶段。相较于PROBAST 2019,PROBAST+AI不仅在结构上更完善,区分了模型开发质量评估与模型验证的偏倚风险,还全面涵盖了对算法、公平性以及现代AI方法的关注。这一工具为研究者、审稿人和政策起草者提供了针对性和适应性的评估框架,有助于提升模型研究的科学性,推动临床预测模型在医疗领域的规范化发展与价值转化。
参考文献:略(可以下载附件的PDF查看)
