本論文では、欠損データの補完に訓練ラベルを利用する手法(IUL)と、訓練データとテストデータを統合して補完し、ラベルを同時に予測する手法(CBMI)を提案している。
IULでは、訓練入力データXtrainと訓練ラベルytrainを結合し、MissForestアルゴリズムを用いて補完する。これにより、ラベル情報を活用することで、入力データの補完精度が大幅に向上する。
CBMIでは、まずテストラベルを欠損値で初期化し、訓練入力、訓練ラベル、テスト入力、テストラベルを統合したデータセットを作成する。そして、MissForestアルゴリズムを用いて、この統合データセットの欠損値を一括して補完する。これにより、訓練ラベルと入力、テストラベルと入力を同時に補完できる。
実験の結果、IULとCBMIはいずれも、従来の欠損データ補完手法(DI)や2段階の分類手法(IClf)と比べて、特に不均衡データ、カテゴリカルデータ、少サンプルデータにおいて優れた性能を示すことが分かった。また、CBMIは訓練データの補完と同時にテストラベルの予測も行えるため、効率的な分類が可能となる。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies