Clinical knowledge-guided deep reinforcement learning for sepsis antibiotic dosing recommendations
基于临床知识引导的深度强化学习用于脓毒症抗生素用药推荐(Wang et al. 2024)
背景
脓毒症是全球第三大死因,抗生素治疗对改善预后至关重要。
当前抗生素的使用依赖医生经验,容易导致用药不足或过度,增加耐药风险。
尽管强化学习(RL)已被用于脓毒症的液体复苏、升压药等治疗决策,但尚无研究将其用于抗生素组合和疗程的推荐。
现有AI模型缺乏与临床知识的融合,可能导致决策偏离医学常识。
研究目标
开发一个个性化、可解释、符合临床指南的抗生素用药推荐系统,解决:
何时开始和停止抗生素?
选择哪种抗生素组合?
如何平衡疗效与用药时长?
方法:SAI-DQN 模型
提出 Sepsis Anti-infection Deep Q-Network (SAI-DQN) 模型,基于深度Q网络(DQN)框架,将治疗过程建模为马尔可夫决策过程(MDP)。
关键组成部分:
状态空间(State Space):
包括患者的人口统计学特征、37项实验室指标、15项生命体征。
特别纳入微生物培养结果(共2047种细菌-抗生素敏感性组合),形成高维稀疏输入。
动作空间(Action Space):
动作为每日的抗生素组合选择。
使用K-means聚类将历史用药序列聚为30类,作为可选动作。
数据来源:
主数据集:MIMIC-IV(9982名脓毒症患者)。
外部验证集:eICU 数据库(11,070名患者)。
缺失值处理:
- 采用混合插补法(前向填充 + K近邻),兼顾个体趋势与临床合理性。
4. 创新点:临床知识引导的奖励函数
设计了四个奖励函数,将医学知识融入强化学习训练过程,提升模型的可解释性和临床一致性:
奖励函数 | 设计目的 | 具体设置 |
---|---|---|
R1 | 学习患者长期预后 | 90天存活:+100;死亡:-100 |
R2 | 鼓励改善病情 | SOFA评分下降:+10;上升:-10 |
R3 | 缩短抗生素使用时间 | 用药 >9天:-10(鼓励合理缩短疗程) |
R4 | 融合真实临床用药模式 | 基于真实数据状态转移的Q值 × 0.1 |
✅ 这是首次在脓毒症抗生素推荐中引入“用药时长”作为优化目标之一。
实验结果
模型性能评估:
- 使用加权重要性采样(WIS) 评估策略价值,SAI-DQN 的决策价值显著高于临床实际决策。
预测效果:
- 在测试集中,模型推荐的抗生素组合可使 79.07% 的患者获得良好预后。
可解释性分析:
模型推荐的用药路径符合临床实践,能根据患者状态动态调整。
例如:在感染未控制时持续用药,在病情好转后及时停药。
主要贡献
首次将深度强化学习应用于脓毒症抗生素组合推荐。
首次关注抗生素“使用时长”问题,通过奖励函数鼓励合理缩短疗程,减少滥用。
将临床指南和医学知识融入奖励函数,提升模型的可解释性和临床一致性。
整合微生物培养数据,实现更精准的个体化推荐。
结论
SAI-DQN 模型能够:
生成符合临床知识的个性化抗生素用药方案;
在提升患者预后的同时,减少不必要的长期用药;
为临床医生提供可解释的决策支持工具,助力抗感染治疗的精准化。
潜在意义
该研究为AI在复杂临床决策中的应用提供了新范式——不仅仅是“预测最佳动作”,更要“符合医学逻辑”。未来可扩展至其他多药联合治疗场景,推动AI从“黑箱”走向“白箱”医疗决策。