Clinical knowledge-guided deep reinforcement learning for sepsis antibiotic dosing recommendations

machine learning
deep learning
程毅松2024年2月15发表于Artif Intell Med
Published

August 27, 2025

基于临床知识引导的深度强化学习用于脓毒症抗生素用药推荐(Wang et al. 2024)

背景

  • 脓毒症是全球第三大死因,抗生素治疗对改善预后至关重要。

  • 当前抗生素的使用依赖医生经验,容易导致用药不足或过度,增加耐药风险。

  • 尽管强化学习(RL)已被用于脓毒症的液体复苏、升压药等治疗决策,但尚无研究将其用于抗生素组合疗程的推荐

  • 现有AI模型缺乏与临床知识的融合,可能导致决策偏离医学常识。

研究目标

开发一个个性化、可解释、符合临床指南的抗生素用药推荐系统,解决:

  • 何时开始和停止抗生素?

  • 选择哪种抗生素组合

  • 如何平衡疗效与用药时长

方法:SAI-DQN 模型

提出 Sepsis Anti-infection Deep Q-Network (SAI-DQN) 模型,基于深度Q网络(DQN)框架,将治疗过程建模为马尔可夫决策过程(MDP)

关键组成部分:

  • 状态空间(State Space)

    • 包括患者的人口统计学特征、37项实验室指标、15项生命体征。

    • 特别纳入微生物培养结果(共2047种细菌-抗生素敏感性组合),形成高维稀疏输入。

  • 动作空间(Action Space)

    • 动作为每日的抗生素组合选择

    • 使用K-means聚类将历史用药序列聚为30类,作为可选动作。

  • 数据来源

    • 主数据集:MIMIC-IV(9982名脓毒症患者)。

    • 外部验证集:eICU 数据库(11,070名患者)。

  • 缺失值处理

    • 采用混合插补法(前向填充 + K近邻),兼顾个体趋势与临床合理性。

4. 创新点:临床知识引导的奖励函数

设计了四个奖励函数,将医学知识融入强化学习训练过程,提升模型的可解释性和临床一致性:

奖励函数 设计目的 具体设置
R1 学习患者长期预后 90天存活:+100;死亡:-100
R2 鼓励改善病情 SOFA评分下降:+10;上升:-10
R3 缩短抗生素使用时间 用药 >9天:-10(鼓励合理缩短疗程)
R4 融合真实临床用药模式 基于真实数据状态转移的Q值 × 0.1

这是首次在脓毒症抗生素推荐中引入“用药时长”作为优化目标之一。

实验结果

  • 模型性能评估

    • 使用加权重要性采样(WIS) 评估策略价值,SAI-DQN 的决策价值显著高于临床实际决策
  • 预测效果

    • 在测试集中,模型推荐的抗生素组合可使 79.07% 的患者获得良好预后
  • 可解释性分析

    • 模型推荐的用药路径符合临床实践,能根据患者状态动态调整。

    • 例如:在感染未控制时持续用药,在病情好转后及时停药。

主要贡献

  1. 首次将深度强化学习应用于脓毒症抗生素组合推荐

  2. 首次关注抗生素“使用时长”问题,通过奖励函数鼓励合理缩短疗程,减少滥用。

  3. 将临床指南和医学知识融入奖励函数,提升模型的可解释性和临床一致性。

  4. 整合微生物培养数据,实现更精准的个体化推荐。

结论

SAI-DQN 模型能够:

  • 生成符合临床知识的个性化抗生素用药方案;

  • 在提升患者预后的同时,减少不必要的长期用药

  • 为临床医生提供可解释的决策支持工具,助力抗感染治疗的精准化。

潜在意义

该研究为AI在复杂临床决策中的应用提供了新范式——不仅仅是“预测最佳动作”,更要“符合医学逻辑”。未来可扩展至其他多药联合治疗场景,推动AI从“黑箱”走向“白箱”医疗决策。

References

Wang, Yuan, Anqi Liu, Jucheng Yang, Lin Wang, Ning Xiong, Yisong Cheng, and Qin Wu. 2024. “Clinical knowledge-guided deep reinforcement learning for sepsis antibiotic dosing recommendations.” Artificial intelligence in medicine 150 (April): 102811. https://doi.org/10.1016/j.artmed.2024.102811.