本研究では、データ欠損によるバイアス(選択的ラベル付けバイアス)が機械学習モデルの一般化誤差に及ぼす影響を解析している。
まず、独立同一分布(IID)データに対するDvoretzky-Kiefer-Wolfowitz(DKW)不等式を拡張し、データ欠損がある場合のCDF(累積分布関数)誤差界を導出した(定理2、3)。
次に、この CDF誤差界を用いて、データ欠損がある場合の機械学習モデルの一般化誤差界を導出した(定理4)。
さらに、データ探索手法(pure exploration、bounded exploration)を用いることで、CDF誤差界およびそれに基づく一般化誤差界を改善できることを示した。
これらの結果から、データ欠損の影響を考慮し、データ探索コストとモデルの一般化性能のトレードオフを適切に管理することの重要性が示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問