本文整理自Medscape的一篇专家观点文章,原文标题为“AI in Medicine Has a Major Cassandra Problem”。
在开始正文之前,先解释一下“卡珊德拉(Cassandra)”,卡珊德拉是古希腊神话的一个悲剧人物。她是特洛伊的公主,因阿波罗的赐予而具有预言能力,但因为拒绝了阿波罗的示爱,阿波罗在祝福之上又加了一个诅咒,让她的预言不被人相信,无论这些预言有多么准确。在整个特洛伊战争中,卡珊德拉对特洛伊命运的警告一再被人驳回,最终导致国破家亡。
当我们谈论医学中的人工智能(AI)时,为什么要先讲卡珊德拉的故事?因为AI存在类似的问题。
看一下近年来的AI历史,特别是AI的热门领域机器学习,其特点是准确性竞赛。电子医疗记录可以收集比以往大几个数量级的数据,这些数据可以通过各种算法进行处理,从而能对很多事情进行预测:患者是否会进入ICU,胃肠道出血是否需要干预,是否有人会在明年死亡…
这一领域的研究往往依赖于回顾性数据集——随着时间的推移,更好的算法和更多的数据带来了越来越好的预测。一些简单的情况下,机器学习模型达到了近乎完美的准确性(近乎于卡珊德拉语言的准确性),例如在读取肺炎的胸部 X 光片时。

但正如卡珊德拉的故事告诉我们的那样,如果没有人相信你,再完美的预测也毫无用处。这也是当今医学AI的核心问题。很多人都关注预测的准确性,但却忘记了高准确性只是AI模型发挥作用的筹码。它不仅必须准确,还必须改变患者的治疗结果。
确定AI模型是否能帮助患者的最佳方法,是像对待新药一样对待AI模型,并通过随机试验对其进行评估。来看一篇JAMA子刊发表的一项研究结果:

https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2810644
研究中的模型可以预测住院儿童的静脉血栓栓塞,该模型从医疗记录中获取了各种数据:血栓病史、癌症病史、各种实验室数据。预测模型非常好,AUC为0.90,意味着具有非常高的准确性。
在研究中,所有患者每天都会通过AI模型计算血栓概率,研究团队可以看到干预组患者的概率,对血栓风险较高(预测概率≥2.5%)的干预组患者进行额外的病历审查,以确定是否要进行抗凝治疗。

该研究试图回答AI模型真正重要的问题:与不使用模型相比,使用模型是否可以改善患者的结局?
总体来说,AI的预测相当准确。在 135 名出现了血栓的儿童中,有 121 名已被AI模型提前标记了(约占 90%)。鉴于该模型的准确性这么高,因此推测出,干预组的儿童结局应该会更好吧? 但结果并非如此。使用AI模型组和未使用组之间的儿童血栓发生率没有差异。
为什么使用准确的模型也未能改善结局?
首先,发出警告应该导致行动上发生一些变化。事实上,干预组的儿童本应更多接受预防性抗凝治疗,但几乎没有。造成这种情况的原因有很多:医生的偏好、患者即将出院、活动性出血等。
看一下干预组中77 名出现了血栓的儿童:

其中6人未达到2.5%的阈值标准,未被AI模型发出警告。其余71人均被AI模型做了标记,但只有16人得到血液科医生的建议开始抗凝治疗。为什么这么少呢?该模型是在周末识别出了一些高风险儿童,而研究团队似乎在那段时间没有联系治疗团队,这可能占到总病例的40%左右。其余的患者存在一些抗凝禁忌症。
最明显的是,在16名确实得到开始抗凝治疗建议的人中,只有7人遵循了建议。
这就是准确预测与改变患者结局能力之间的差距。当然,如果预测是错误的,那么它就毫无用处。但如果预测不告诉任何人,这也是没有用的。如果他们本可以采取一些措施,但却选择不去做,那预测也是没有用的。