核心概念
本文提出了一個名為Shades-of-Null的基準,用於評估負責任的缺失值填補方法。該基準包含最先進的填補技術,並將其嵌入機器學習開發生命週期中。我們建模了超越魯賓經典缺失完全隨機(MCAR)、缺失隨機(MAR)和缺失非隨機(MNAR)的現實缺失情景,包括多機制缺失(當不同的缺失模式共存於數據中)和缺失轉移(當訓練集和測試集之間的缺失機制發生變化)。我們的工作的另一個關鍵創新是,我們根據預測性能、公平性和穩定性對填補器進行整體評估。
摘要
本文提出了一個名為Shades-of-Null的基準,用於全面和嚴格地評估新的缺失值填補方法在各種評估指標和現實可能的缺失情景下的表現。
該基準的主要特點包括:
處理單一機制和混合機制的缺失情景,包括缺失轉移。
支持靈活的填補質量和模型性能評估,包括準確性、公平性和穩定性。
作者進行了大規模的實驗研究,涉及20,952個實驗管道,發現雖然沒有單一最佳的填補方法適用於所有缺失類型,但在較簡單和更複雜的缺失情景中比較填補器的性能確實會出現有趣的模式。此外,預測性能、公平性和穩定性可以視為正交的,但由於缺失情景、填補器的選擇以及在填補後訓練的模型架構的組合,它們之間會出現權衡。
作者公開發佈了Shades-of-Null基準,希望能夠使研究人員能夠全面和嚴格地評估新的缺失值填補方法在各種評估指標和現實可能的缺失情景下的表現。
統計資料
缺失完全隨機(MCAR)時,填補器的F1分數下降約0.06。
缺失隨機(MAR)時,填補器的F1分數下降約0.08。
缺失非隨機(MNAR)時,填補器的F1分數下降約0.1。