核心概念
mDAE方法通過修改損失函數和簡化超參數選擇過程,有效提高了DAE在缺失數據插補方面的性能,並在多個UCI數據集上取得了與SoftImput和missForest等頂尖方法相當的結果。
統計資料
本文使用了七個來自UCI機器學習庫的數據集,包括乳腺癌診斷、聲納、電離層、輸血、種子、氣候模型崩潰和葡萄酒質量。
研究中考慮了三種缺失數據機制:完全隨機缺失 (MCAR)、隨機缺失 (MAR) 和非隨機缺失 (MNAR)。
人工缺失值的比例設定為 20% 和 40%。
評估指標為重建缺失值的均方根誤差 (RMSE)。
消融研究比較了 mDAE 方法在使用和不使用修改後的損失函數、優化後的超參數 µ 和過完備結構的情況下的性能差異。
與其他方法的比較使用了平均最佳距離 (MDB) 指標來衡量方法在所有數據集上的整體表現。
引述
"This paper introduces a methodology based on Denoising AutoEncoder (DAE) for missing data imputation."
"This paper proposes a modified Denoising AutoEncoder (mDAE) dedicated to imputing missing values in numerical tabular data."
"This numerical study is completed by comparing the mDAE methodology with eight other methods (four standard and four more recent)."
"According to this criterion, the mDAE methodology was consistently ranked among the top methods (along with SoftImput and missForest), while the four more recent methods were systematically ranked last."