洞察 - Scientific Computing - # Missing Data Imputation

臨床風險預測模型中缺失數據插補與內部驗證的結合：模擬研究與實務指引

Q: 在處理具有更複雜結構或非隨機缺失機制的數據時，確定性插補法是否仍然適用？

當數據具有更複雜的結構或非隨機缺失機制時，確定性插補法可能不再適用，甚至可能導致偏差。以下列出幾種情況： 非隨機缺失（MNAR）: 當數據缺失的機制與未觀察到的數據相關時，稱為非隨機缺失。在這種情況下，僅根據觀察到的數據進行插補會產生偏差，因為它無法準確反映缺失數據的真實分佈。 複雜的數據結構: 對於具有複雜結構的數據，例如縱向數據、多層次數據或包含交互作用的數據，簡單的確定性插補法可能無法捕捉到數據的複雜關係，從而導致偏差。 在這些情況下，需要考慮更複雜的插補方法，例如： 多重插補法（Multiple Imputation, MI）: MI 通過生成多個插補數據集來解決插補的不確定性。每個數據集都使用不同的插補值，然後將分析結果匯總，以獲得更準確的估計和標準誤。 基於模型的插補法: 這些方法使用統計模型來預測缺失值，例如基於似然的方法或貝葉斯方法。這些方法可以更好地處理非隨機缺失和複雜的數據結構。 總之，確定性插補法在處理簡單的缺失機制和數據結構時是有效的，但在處理更複雜的情況時，需要謹慎使用，並考慮更複雜的插補方法。

Q: 是否存在其他結合插補法和內部驗證的替代方案，例如貝葉斯方法，以及它們與本研究提出的方法相比如何？

除了本研究提出的方法外，確實存在其他結合插補法和內部驗證的替代方案，貝葉斯方法就是其中之一。以下將介紹貝葉斯方法，並與本研究提出的方法進行比較： 貝葉斯方法 原理: 貝葉斯方法將缺失數據視為未知參數，並使用先驗分佈來描述這些參數的初始信念。然後，通過結合觀察到的數據和先驗分佈，貝葉斯方法可以推導出缺失數據的後驗分佈。 優點: 可以自然地處理非隨機缺失數據。 可以納入先驗信息，提高估計的效率。 可以提供完整的後驗分佈，而不是單點估計，從而更好地量化不確定性。 缺點: 計算量大，尤其是在處理大型數據集或複雜模型時。 需要指定先驗分佈，這可能具有一定的主觀性。 與本研究提出的方法比較 特性 本研究方法（確定性插補 + Bootstrap） 貝葉斯方法 計算效率 較高 較低 處理非隨機缺失 較差 較好 納入先驗信息 無法納入 可以納入 量化不確定性 僅通過Bootstrap 通過後驗分佈 總結 貝葉斯方法在處理非隨機缺失和納入先驗信息方面具有優勢，但計算量較大。本研究提出的方法計算效率較高，適用於處理隨機缺失和數據結構相對簡單的情況。

Q: 隨著數據收集方法和醫療保健系統的進步，如何預防臨床數據的缺失，從而減少對插補法的依賴？

減少對插補法的依賴最根本的方法是從源頭上預防臨床數據的缺失。以下列舉一些隨著數據收集方法和醫療保健系統的進步，可以採取的預防措施： 1. 電子病歷（EMR）系統的優化: 標準化數據收集: 建立標準化的數據收集流程和表格，確保所有必要變量都被一致地記錄。 強制性字段: 將關鍵變量設置為 EMR 系統中的強制性字段，防止數據錄入人員遺漏重要信息。 數據驗證: 在 EMR 系統中嵌入數據驗證規則，自動識別和標記異常值或缺失值，提醒醫護人員及時修正。 2. 提升數據收集的意識: 培訓: 對醫護人員進行數據收集重要性的培訓，強調完整準確的數據對臨床研究和患者護理的重要性。 反饋機制: 建立數據完整性的反饋機制，定期向醫護人員反饋數據收集情況，表揚表現優異者，並督促改進不足。 3. 利用技術手段: 移动设备和可穿戴设备: 利用移动设备和可穿戴设备，例如智能手环、血糖仪等，自動收集患者的生理數據，減少人為記錄的錯誤和遺漏。 人工智能: 利用人工智能技術，例如自然語言處理（NLP），自動從非結構化文本數據中提取信息，補充結構化數據的缺失。 4. 加強數據共享和整合: 建立數據共享平台: 鼓勵醫療機構之間建立數據共享平台，整合不同來源的患者信息，減少因信息孤島造成的數據缺失。 開發數據標準: 制定統一的數據標準，促進不同醫療機構之間的數據互通，提高數據的完整性和可用性。 總結 通過優化數據收集流程、提升數據收集意識、利用技術手段以及加強數據共享和整合，可以有效預防臨床數據的缺失，減少對插補法的依賴，提高臨床研究和患者護理的質量。

核心概念

在建立臨床風險預測模型時，使用 bootstrapping 結合確定性迴歸插補法處理缺失數據，並插補所有缺失值，最能減少模型表現評估和個體風險預測的偏差。

摘要

自定义摘要

使用 AI 改写

生成参考文献

翻译原文

翻译成其他语言

生成思维导图

从原文生成

访问来源

arxiv.org

論文資訊
Mi, J., Tendulkar, R. D., Sittenfeld, S. M. C., Patil, S., & Zabor, E. C. (2024). Combining missing data imputation and internal validation in clinical risk prediction models. arXiv preprint arXiv:2411.14542.
研究目標
本研究旨在探討在建立具內部驗證的臨床風險預測模型時，如何有效處理缺失數據，並比較不同插補方法對模型效能的影響。
研究方法

本研究以一個包含 11 個預測變項的多變量模型為基礎，模擬產生 54 種不同情境下的數據，包含兩種樣本數、九種缺失數據模式和三種插補方法。
採用 bootstrapping 結合確定性迴歸插補法處理缺失數據，並與完全案例分析法進行比較。
評估指標包括 AUC、Brier 分數和個體預測風險的偏差。
主要發現

bootstrapping 結合確定性迴歸插補法，並插補所有缺失值，在 AUC 和 Brier 分數的評估上，以及個體風險預測的偏差上，都優於完全案例分析法。
即使在缺失數據比例較低的情況下，插補法也能有效降低偏差。
在缺失數據比例較高的情況下，完全案例分析法可能因為模型無法收斂或過度擬合而不可行，此時插補法更顯重要。
主要結論

建議在建立臨床風險預測模型時，採用 bootstrapping 結合確定性迴歸插補法處理缺失數據，並插補所有缺失值，以獲得更準確且穩健的模型。
研究意義
本研究提供了一個處理臨床風險預測模型中缺失數據的實用指南，並強調了插補法在提高模型效能和個體風險預測準確性方面的優勢。
研究限制與未來方向

本研究僅考慮了特定類型的預測模型和缺失數據模式，未來研究可探討其他模型和情境下的適用性。
未探討不同插補方法的計算成本差異，未來研究可比較其效率和可擴展性。

统计

模擬研究採用兩種樣本數：750 和 3500。
研究探討九種缺失數據模式，涵蓋單一和多個變項的不同缺失比例。
三種插補方法包括：插補所有缺失值、僅插補缺失比例超過 10% 的變項、僅針對缺失變項數不超過兩個的個案進行插補。
預測時間點設定為 5 年。
每種方法皆產生 500 個 bootstrapping 樣本。

从中提取的关键见解

Combining missing data imputation and internal validation in clinical risk prediction models

by Junhui Mi, R... 在 arxiv.org 11-25-2024

https://arxiv.org/pdf/2411.14542.pdf

Combining missing data imputation and internal validation in clinical risk prediction models

更深入的查询

在處理具有更複雜結構或非隨機缺失機制的數據時，確定性插補法是否仍然適用？

當數據具有更複雜的結構或非隨機缺失機制時，確定性插補法可能不再適用，甚至可能導致偏差。以下列出幾種情況：

非隨機缺失（MNAR）:  當數據缺失的機制與未觀察到的數據相關時，稱為非隨機缺失。在這種情況下，僅根據觀察到的數據進行插補會產生偏差，因為它無法準確反映缺失數據的真實分佈。
複雜的數據結構: 對於具有複雜結構的數據，例如縱向數據、多層次數據或包含交互作用的數據，簡單的確定性插補法可能無法捕捉到數據的複雜關係，從而導致偏差。
在這些情況下，需要考慮更複雜的插補方法，例如：

多重插補法（Multiple Imputation, MI）:  MI 通過生成多個插補數據集來解決插補的不確定性。每個數據集都使用不同的插補值，然後將分析結果匯總，以獲得更準確的估計和標準誤。
基於模型的插補法:  這些方法使用統計模型來預測缺失值，例如基於似然的方法或貝葉斯方法。這些方法可以更好地處理非隨機缺失和複雜的數據結構。
總之，確定性插補法在處理簡單的缺失機制和數據結構時是有效的，但在處理更複雜的情況時，需要謹慎使用，並考慮更複雜的插補方法。

是否存在其他結合插補法和內部驗證的替代方案，例如貝葉斯方法，以及它們與本研究提出的方法相比如何？

除了本研究提出的方法外，確實存在其他結合插補法和內部驗證的替代方案，貝葉斯方法就是其中之一。以下將介紹貝葉斯方法，並與本研究提出的方法進行比較：
貝葉斯方法

原理: 貝葉斯方法將缺失數據視為未知參數，並使用先驗分佈來描述這些參數的初始信念。然後，通過結合觀察到的數據和先驗分佈，貝葉斯方法可以推導出缺失數據的後驗分佈。
優點:

可以自然地處理非隨機缺失數據。
可以納入先驗信息，提高估計的效率。
可以提供完整的後驗分佈，而不是單點估計，從而更好地量化不確定性。

缺點:

計算量大，尤其是在處理大型數據集或複雜模型時。
需要指定先驗分佈，這可能具有一定的主觀性。
與本研究提出的方法比較

特性
本研究方法（確定性插補 + Bootstrap）
貝葉斯方法

計算效率
較高
較低

處理非隨機缺失
較差
較好

納入先驗信息
無法納入
可以納入

量化不確定性
僅通過Bootstrap
通過後驗分佈

總結
貝葉斯方法在處理非隨機缺失和納入先驗信息方面具有優勢，但計算量較大。本研究提出的方法計算效率較高，適用於處理隨機缺失和數據結構相對簡單的情況。

隨著數據收集方法和醫療保健系統的進步，如何預防臨床數據的缺失，從而減少對插補法的依賴？

減少對插補法的依賴最根本的方法是從源頭上預防臨床數據的缺失。以下列舉一些隨著數據收集方法和醫療保健系統的進步，可以採取的預防措施：
1. 電子病歷（EMR）系統的優化:

標準化數據收集: 建立標準化的數據收集流程和表格，確保所有必要變量都被一致地記錄。
強制性字段:  將關鍵變量設置為 EMR 系統中的強制性字段，防止數據錄入人員遺漏重要信息。
數據驗證:  在 EMR 系統中嵌入數據驗證規則，自動識別和標記異常值或缺失值，提醒醫護人員及時修正。
2.  提升數據收集的意識:

培訓:  對醫護人員進行數據收集重要性的培訓，強調完整準確的數據對臨床研究和患者護理的重要性。
反饋機制:  建立數據完整性的反饋機制，定期向醫護人員反饋數據收集情況，表揚表現優異者，並督促改進不足。
3. 利用技術手段:

移动设备和可穿戴设备:  利用移动设备和可穿戴设备，例如智能手环、血糖仪等，自動收集患者的生理數據，減少人為記錄的錯誤和遺漏。
人工智能:  利用人工智能技術，例如自然語言處理（NLP），自動從非結構化文本數據中提取信息，補充結構化數據的缺失。
4.  加強數據共享和整合:

建立數據共享平台:  鼓勵醫療機構之間建立數據共享平台，整合不同來源的患者信息，減少因信息孤島造成的數據缺失。
開發數據標準:  制定統一的數據標準，促進不同醫療機構之間的數據互通，提高數據的完整性和可用性。
總結
通過優化數據收集流程、提升數據收集意識、利用技術手段以及加強數據共享和整合，可以有效預防臨床數據的缺失，減少對插補法的依賴，提高臨床研究和患者護理的質量。