本研究提出了一種基於批次約束的強化學習(BCQ)方法,利用電子病歷(EMR)數據優化重症監護病房(ICU)中的肝素給藥政策。該方法通過整合專家行為網絡來緩解Q值過高估計,在行為策略和最優策略之間達到平衡。
實驗結果表明,與傳統深度強化學習(DRL)算法相比,BCQ算法在離線環境中表現更優異。此外,通過t-SNE分析,我們驗證了強化學習政策準確學習了設計的獎勵函數目標,突出了有利於實現預期結果的高價值狀態。
這項研究強調了人工智能驅動的決策支持系統在增強血栓治療策略方面的潛力,為臨床醫生和醫療管理者提供了有價值的洞見。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yooseok Lim,... kl. arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15753.pdfDybere Forespørgsler