insight - Scientific Computing - # Missing Data Imputation

臨床風險預測模型中缺失數據插補與內部驗證的結合：模擬研究與實務指引

Q: 在處理具有更複雜結構或非隨機缺失機制的數據時，確定性插補法是否仍然適用？

當數據具有更複雜的結構或非隨機缺失機制時，確定性插補法可能不再適用，甚至可能導致偏差。以下列出幾種情況： 非隨機缺失（MNAR）: 當數據缺失的機制與未觀察到的數據相關時，稱為非隨機缺失。在這種情況下，僅根據觀察到的數據進行插補會產生偏差，因為它無法準確反映缺失數據的真實分佈。 複雜的數據結構: 對於具有複雜結構的數據，例如縱向數據、多層次數據或包含交互作用的數據，簡單的確定性插補法可能無法捕捉到數據的複雜關係，從而導致偏差。 在這些情況下，需要考慮更複雜的插補方法，例如： 多重插補法（Multiple Imputation, MI）: MI 通過生成多個插補數據集來解決插補的不確定性。每個數據集都使用不同的插補值，然後將分析結果匯總，以獲得更準確的估計和標準誤。 基於模型的插補法: 這些方法使用統計模型來預測缺失值，例如基於似然的方法或貝葉斯方法。這些方法可以更好地處理非隨機缺失和複雜的數據結構。 總之，確定性插補法在處理簡單的缺失機制和數據結構時是有效的，但在處理更複雜的情況時，需要謹慎使用，並考慮更複雜的插補方法。

Q: 是否存在其他結合插補法和內部驗證的替代方案，例如貝葉斯方法，以及它們與本研究提出的方法相比如何？

除了本研究提出的方法外，確實存在其他結合插補法和內部驗證的替代方案，貝葉斯方法就是其中之一。以下將介紹貝葉斯方法，並與本研究提出的方法進行比較： 貝葉斯方法 原理: 貝葉斯方法將缺失數據視為未知參數，並使用先驗分佈來描述這些參數的初始信念。然後，通過結合觀察到的數據和先驗分佈，貝葉斯方法可以推導出缺失數據的後驗分佈。 優點: 可以自然地處理非隨機缺失數據。 可以納入先驗信息，提高估計的效率。 可以提供完整的後驗分佈，而不是單點估計，從而更好地量化不確定性。 缺點: 計算量大，尤其是在處理大型數據集或複雜模型時。 需要指定先驗分佈，這可能具有一定的主觀性。 與本研究提出的方法比較 特性 本研究方法（確定性插補 + Bootstrap） 貝葉斯方法 計算效率 較高 較低 處理非隨機缺失 較差 較好 納入先驗信息 無法納入 可以納入 量化不確定性 僅通過Bootstrap 通過後驗分佈 總結 貝葉斯方法在處理非隨機缺失和納入先驗信息方面具有優勢，但計算量較大。本研究提出的方法計算效率較高，適用於處理隨機缺失和數據結構相對簡單的情況。

Q: 隨著數據收集方法和醫療保健系統的進步，如何預防臨床數據的缺失，從而減少對插補法的依賴？

減少對插補法的依賴最根本的方法是從源頭上預防臨床數據的缺失。以下列舉一些隨著數據收集方法和醫療保健系統的進步，可以採取的預防措施： 1. 電子病歷（EMR）系統的優化: 標準化數據收集: 建立標準化的數據收集流程和表格，確保所有必要變量都被一致地記錄。 強制性字段: 將關鍵變量設置為 EMR 系統中的強制性字段，防止數據錄入人員遺漏重要信息。 數據驗證: 在 EMR 系統中嵌入數據驗證規則，自動識別和標記異常值或缺失值，提醒醫護人員及時修正。 2. 提升數據收集的意識: 培訓: 對醫護人員進行數據收集重要性的培訓，強調完整準確的數據對臨床研究和患者護理的重要性。 反饋機制: 建立數據完整性的反饋機制，定期向醫護人員反饋數據收集情況，表揚表現優異者，並督促改進不足。 3. 利用技術手段: 移动设备和可穿戴设备: 利用移动设备和可穿戴设备，例如智能手环、血糖仪等，自動收集患者的生理數據，減少人為記錄的錯誤和遺漏。 人工智能: 利用人工智能技術，例如自然語言處理（NLP），自動從非結構化文本數據中提取信息，補充結構化數據的缺失。 4. 加強數據共享和整合: 建立數據共享平台: 鼓勵醫療機構之間建立數據共享平台，整合不同來源的患者信息，減少因信息孤島造成的數據缺失。 開發數據標準: 制定統一的數據標準，促進不同醫療機構之間的數據互通，提高數據的完整性和可用性。 總結 通過優化數據收集流程、提升數據收集意識、利用技術手段以及加強數據共享和整合，可以有效預防臨床數據的缺失，減少對插補法的依賴，提高臨床研究和患者護理的質量。

Conceitos Básicos

在建立臨床風險預測模型時，使用 bootstrapping 結合確定性迴歸插補法處理缺失數據，並插補所有缺失值，最能減少模型表現評估和個體風險預測的偏差。

Resumo

Personalizar Resumo

Reescrever com IA

Gerar Citações

Traduzir Texto Original

Para Outro Idioma

Gerar Mapa Mental

do conteúdo original

Visitar Fonte

arxiv.org

論文資訊
Mi, J., Tendulkar, R. D., Sittenfeld, S. M. C., Patil, S., & Zabor, E. C. (2024). Combining missing data imputation and internal validation in clinical risk prediction models. arXiv preprint arXiv:2411.14542.
研究目標
本研究旨在探討在建立具內部驗證的臨床風險預測模型時，如何有效處理缺失數據，並比較不同插補方法對模型效能的影響。
研究方法

本研究以一個包含 11 個預測變項的多變量模型為基礎，模擬產生 54 種不同情境下的數據，包含兩種樣本數、九種缺失數據模式和三種插補方法。
採用 bootstrapping 結合確定性迴歸插補法處理缺失數據，並與完全案例分析法進行比較。
評估指標包括 AUC、Brier 分數和個體預測風險的偏差。
主要發現

bootstrapping 結合確定性迴歸插補法，並插補所有缺失值，在 AUC 和 Brier 分數的評估上，以及個體風險預測的偏差上，都優於完全案例分析法。
即使在缺失數據比例較低的情況下，插補法也能有效降低偏差。
在缺失數據比例較高的情況下，完全案例分析法可能因為模型無法收斂或過度擬合而不可行，此時插補法更顯重要。
主要結論

建議在建立臨床風險預測模型時，採用 bootstrapping 結合確定性迴歸插補法處理缺失數據，並插補所有缺失值，以獲得更準確且穩健的模型。
研究意義
本研究提供了一個處理臨床風險預測模型中缺失數據的實用指南，並強調了插補法在提高模型效能和個體風險預測準確性方面的優勢。
研究限制與未來方向

本研究僅考慮了特定類型的預測模型和缺失數據模式，未來研究可探討其他模型和情境下的適用性。
未探討不同插補方法的計算成本差異，未來研究可比較其效率和可擴展性。

Estatísticas

模擬研究採用兩種樣本數：750 和 3500。
研究探討九種缺失數據模式，涵蓋單一和多個變項的不同缺失比例。
三種插補方法包括：插補所有缺失值、僅插補缺失比例超過 10% 的變項、僅針對缺失變項數不超過兩個的個案進行插補。
預測時間點設定為 5 年。
每種方法皆產生 500 個 bootstrapping 樣本。

Principais Insights Extraídos De

Combining missing data imputation and internal validation in clinical risk prediction models

by Junhui Mi, R... às arxiv.org 11-25-2024

https://arxiv.org/pdf/2411.14542.pdf

Combining missing data imputation and internal validation in clinical risk prediction models

Perguntas Mais Profundas

在處理具有更複雜結構或非隨機缺失機制的數據時，確定性插補法是否仍然適用？

當數據具有更複雜的結構或非隨機缺失機制時，確定性插補法可能不再適用，甚至可能導致偏差。以下列出幾種情況：

非隨機缺失（MNAR）:  當數據缺失的機制與未觀察到的數據相關時，稱為非隨機缺失。在這種情況下，僅根據觀察到的數據進行插補會產生偏差，因為它無法準確反映缺失數據的真實分佈。
複雜的數據結構: 對於具有複雜結構的數據，例如縱向數據、多層次數據或包含交互作用的數據，簡單的確定性插補法可能無法捕捉到數據的複雜關係，從而導致偏差。
在這些情況下，需要考慮更複雜的插補方法，例如：

多重插補法（Multiple Imputation, MI）:  MI 通過生成多個插補數據集來解決插補的不確定性。每個數據集都使用不同的插補值，然後將分析結果匯總，以獲得更準確的估計和標準誤。
基於模型的插補法:  這些方法使用統計模型來預測缺失值，例如基於似然的方法或貝葉斯方法。這些方法可以更好地處理非隨機缺失和複雜的數據結構。
總之，確定性插補法在處理簡單的缺失機制和數據結構時是有效的，但在處理更複雜的情況時，需要謹慎使用，並考慮更複雜的插補方法。

是否存在其他結合插補法和內部驗證的替代方案，例如貝葉斯方法，以及它們與本研究提出的方法相比如何？

除了本研究提出的方法外，確實存在其他結合插補法和內部驗證的替代方案，貝葉斯方法就是其中之一。以下將介紹貝葉斯方法，並與本研究提出的方法進行比較：
貝葉斯方法

原理: 貝葉斯方法將缺失數據視為未知參數，並使用先驗分佈來描述這些參數的初始信念。然後，通過結合觀察到的數據和先驗分佈，貝葉斯方法可以推導出缺失數據的後驗分佈。
優點:

可以自然地處理非隨機缺失數據。
可以納入先驗信息，提高估計的效率。
可以提供完整的後驗分佈，而不是單點估計，從而更好地量化不確定性。

缺點:

計算量大，尤其是在處理大型數據集或複雜模型時。
需要指定先驗分佈，這可能具有一定的主觀性。
與本研究提出的方法比較

特性
本研究方法（確定性插補 + Bootstrap）
貝葉斯方法

計算效率
較高
較低

處理非隨機缺失
較差
較好

納入先驗信息
無法納入
可以納入

量化不確定性
僅通過Bootstrap
通過後驗分佈

總結
貝葉斯方法在處理非隨機缺失和納入先驗信息方面具有優勢，但計算量較大。本研究提出的方法計算效率較高，適用於處理隨機缺失和數據結構相對簡單的情況。

隨著數據收集方法和醫療保健系統的進步，如何預防臨床數據的缺失，從而減少對插補法的依賴？

減少對插補法的依賴最根本的方法是從源頭上預防臨床數據的缺失。以下列舉一些隨著數據收集方法和醫療保健系統的進步，可以採取的預防措施：
1. 電子病歷（EMR）系統的優化:

標準化數據收集: 建立標準化的數據收集流程和表格，確保所有必要變量都被一致地記錄。
強制性字段:  將關鍵變量設置為 EMR 系統中的強制性字段，防止數據錄入人員遺漏重要信息。
數據驗證:  在 EMR 系統中嵌入數據驗證規則，自動識別和標記異常值或缺失值，提醒醫護人員及時修正。
2.  提升數據收集的意識:

培訓:  對醫護人員進行數據收集重要性的培訓，強調完整準確的數據對臨床研究和患者護理的重要性。
反饋機制:  建立數據完整性的反饋機制，定期向醫護人員反饋數據收集情況，表揚表現優異者，並督促改進不足。
3. 利用技術手段:

移动设备和可穿戴设备:  利用移动设备和可穿戴设备，例如智能手环、血糖仪等，自動收集患者的生理數據，減少人為記錄的錯誤和遺漏。
人工智能:  利用人工智能技術，例如自然語言處理（NLP），自動從非結構化文本數據中提取信息，補充結構化數據的缺失。
4.  加強數據共享和整合:

建立數據共享平台:  鼓勵醫療機構之間建立數據共享平台，整合不同來源的患者信息，減少因信息孤島造成的數據缺失。
開發數據標準:  制定統一的數據標準，促進不同醫療機構之間的數據互通，提高數據的完整性和可用性。
總結
通過優化數據收集流程、提升數據收集意識、利用技術手段以及加強數據共享和整合，可以有效預防臨床數據的缺失，減少對插補法的依賴，提高臨床研究和患者護理的質量。