Temel Kavramlar
在建立臨床風險預測模型時,使用 bootstrapping 結合確定性迴歸插補法處理缺失數據,並插補所有缺失值,最能減少模型表現評估和個體風險預測的偏差。
論文資訊
Mi, J., Tendulkar, R. D., Sittenfeld, S. M. C., Patil, S., & Zabor, E. C. (2024). Combining missing data imputation and internal validation in clinical risk prediction models. arXiv preprint arXiv:2411.14542.
研究目標
本研究旨在探討在建立具內部驗證的臨床風險預測模型時,如何有效處理缺失數據,並比較不同插補方法對模型效能的影響。
研究方法
本研究以一個包含 11 個預測變項的多變量模型為基礎,模擬產生 54 種不同情境下的數據,包含兩種樣本數、九種缺失數據模式和三種插補方法。
採用 bootstrapping 結合確定性迴歸插補法處理缺失數據,並與完全案例分析法進行比較。
評估指標包括 AUC、Brier 分數和個體預測風險的偏差。
主要發現
bootstrapping 結合確定性迴歸插補法,並插補所有缺失值,在 AUC 和 Brier 分數的評估上,以及個體風險預測的偏差上,都優於完全案例分析法。
即使在缺失數據比例較低的情況下,插補法也能有效降低偏差。
在缺失數據比例較高的情況下,完全案例分析法可能因為模型無法收斂或過度擬合而不可行,此時插補法更顯重要。
主要結論
建議在建立臨床風險預測模型時,採用 bootstrapping 結合確定性迴歸插補法處理缺失數據,並插補所有缺失值,以獲得更準確且穩健的模型。
研究意義
本研究提供了一個處理臨床風險預測模型中缺失數據的實用指南,並強調了插補法在提高模型效能和個體風險預測準確性方面的優勢。
研究限制與未來方向
本研究僅考慮了特定類型的預測模型和缺失數據模式,未來研究可探討其他模型和情境下的適用性。
未探討不同插補方法的計算成本差異,未來研究可比較其效率和可擴展性。
İstatistikler
模擬研究採用兩種樣本數:750 和 3500。
研究探討九種缺失數據模式,涵蓋單一和多個變項的不同缺失比例。
三種插補方法包括:插補所有缺失值、僅插補缺失比例超過 10% 的變項、僅針對缺失變項數不超過兩個的個案進行插補。
預測時間點設定為 5 年。
每種方法皆產生 500 個 bootstrapping 樣本。