前沿:超过10% 的外科患者会出现严重的术后并发症,例如肺炎和血栓,这些并发症往往会导致死亡率增加、重症监护病房入院、住院时间延长和医疗费用增加,可以通过及早识别患者风险因素来避免这些。
人工智能 (AI) 的新进展,尤其是大型语言模型 (LLM),现在提供了一种有希望的解决方案。精心设计的干预措施可将并发症减少 30% 至 80%。这超过了药物或治疗干预的效果
最近,华盛顿大学圣路易斯分校麦凯维工程学院计算机科学与工程系 Fullgraf 教授兼人工智能健康研究所 (AIHealth) 主任 Chenyang Lu 领导了一项研究,通过分析术前评估和临床记录,探索了 LLM 预测术后并发症的潜力。
这项研究于 2 月 11 日在npj Digital Medicine上在线发表,题目为:The foundational capabilities of large language models in predicting postoperative risks using clinical notes 该研究表明 LLM 在预测术后风险方面可以显著优于传统的机器学习方法。
传统的风险预测模型主要依赖于结构化数据,例如实验室检查结果、患者人口统计数据以及手术细节(例如手术时长或外科医生的经验)。
为手术记录量身定制的大型语言模型能够尽早准确预测术后并发症。通过主动识别风险,临床医生可以尽早干预,提高患者的安全性和治疗效果。
图一:不同微调策略的比较。
![图片[1]-大语言模型(LLM) 结合临床记录可预测术后风险及并发症-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/04/1745569388578_0.png)
图一通过对不同微调技术对LLM预测术后结果的性能,确定最佳策略以最大限度地发挥其在早期识别术后风险方面的预测能力
图2:通过微调策略提高敏感度
![图片[2]-大语言模型(LLM) 结合临床记录可预测术后风险及并发症-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/04/1745569388578_1.png)
图2 可以看出啊所有的微调方法都提高了敏感度,能够更好的识别高风险患者,相比基线模型有了显著改进,改进的模型可以帮助医生更准确地发现那些原本可能被忽略的高风险患者,提高诊断效果。
根据 2018 年至 2021 年期间收集的美国中西部一家学术医疗中心的近 85,000 份手术记录和相关患者结果,他们的模型在预测并发症方面的表现远优于传统方法。对于每 100 名出现术后并发症的患者,该团队的新模型比传统的自然语言处理模型多正确预测了 39 名出现并发症的患者。
图 3:微调策略对所有结果的预测性能。
![图片[3]-大语言模型(LLM) 结合临床记录可预测术后风险及并发症-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/04/1745569388578_2.png)
图3在所有结果中实验性微调策略的预测性能说明。与单独使用预训练模型相比,使用自监督训练目标对模型进行微调可提高预测性能。此外,将标签作为微调目标的一部分可进一步提高预测性能。基础微调策略表现最佳,其中使用多任务学习目标对数据集中的所有结果对模型进行微调。
图4:当用文本应用于每个模型时,机器学习分类器的预测性能的变化。
![图片[4]-大语言模型(LLM) 结合临床记录可预测术后风险及并发症-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/04/1745569388578_3.png)
图4结果表明,没有一个分类器在所有结果和指标上始终优于其他分类器。有趣的是,逻辑回归分类器在某些情况下表现稍好一些,这表明经过良好调整的语言模型可以生成精确的上下文表示,并能与简单的分类器有效地协同工作。
图5:哪些关键词可以预测特定结果?
![图片[5]-大语言模型(LLM) 结合临床记录可预测术后风险及并发症-JieYingAI捷鹰AI](https://www.jieyingai.com/wp-content/uploads/2025/04/1745569388578_4.png)
如图所示SHAP 值总结了 10 个最具影响力的标记,这些标记解释了模型对每个结果的预测(或反对预测)。每个图形面板都展示了最具影响力的标记
尽管各项研究证明了 LLM 在预测术前护理记录风险方面的潜力,但它仍存在局限性,基于特定手术类型预测术后并发症的临床效用有限。为了解决这些限制,以后的工作还是任重而道远,也相信在不久的将来LLM能够真正的服务于临床!
参考文献:
Charles Alba, Bing Xue, Joanna Abraham, Thomas Kannampallil, Chenyang Lu. The foundational capabilities of large language models in predicting postoperative risks using clinical notes.npj Digital Medicine, 2025; 8 (1) DOI:10.1038/s41746-025-01489-2







