核心概念
本文提出了一種名為CSAI的新方法,用於管理來自醫院電子健康記錄(EHR)的複雜缺失的多變量時間序列。CSAI通過利用注意力機制和領域知識嵌入來捕捉時間和空間依賴性,從而提高插補精度和下游任務的性能。
摘要
本文提出了一種名為CSAI的新方法,用於管理來自醫院電子健康記錄(EHR)的複雜缺失的多變量時間序列。CSAI擴展了BRITS模型,通過以下方式更好地適應EHR數據的特徵:
利用自注意力機制來更有效地初始化隱藏狀態,從而更好地捕捉時間動態。
引入一種基於領域知識的時間衰減函數,根據不同特徵的臨床記錄模式調整注意力機制,從而更細粒度地表示時間關係。
採用非均勻遮蔽策略,以反映數據集中固有的時間和特徵之間的相互依賴關係。
CSAI在四個真實世界的醫療保健數據集上的實驗結果表明,它在插補和分類任務上均優於現有的基準模型。此外,CSAI的非均勻遮蔽策略進一步提高了模型在處理複雜缺失模式方面的性能。這些結果突出了CSAI在提高醫療保健預測模型準確性和可靠性方面的潛力。
統計資料
EHR數據中缺失值超過50%,且缺失模式存在顯著差異。
EHR數據中特徵之間存在強相關性,如高血壓和腎病。
EHR數據中特徵記錄頻率存在顯著差異,如心率比白細胞計數更頻繁記錄。
引述
"EHR時間序列的性質和時間記錄由臨床和行政決策所驅動,導致記錄生命體徵、實驗室檢查和其他醫療保健指標的頻率存在差異。"
"EHR數據中的固有不規則性使得超過50%的數據以非隨機方式缺失,且缺失模式在任務和數據集之間存在顯著差異。"
"將注意力機制與雙向RNN架構相結合,CSAI能夠捕捉BRITS和類似RNN模型可能錯過的長期依賴關係。"