Core Concepts
本論文では、大規模医療データの欠損値補完のために、最近開発された多階層確率的最適化アプローチを適用する。この手法は計算応用数学の技術に基づいており、高精度かつ数値的に安定している。特に、最良線形不偏推定量(BLUP)に対するこの多階層定式化は正確であり、大幅に高速かつ数値的に安定している。これにより、大規模データセットの欠損値補完問題にKriging法を実用的に適用することができる。
Abstract
本論文では、大規模医療データの欠損値補完のために、最近開発された多階層確率的最適化アプローチを適用している。
序論
医療分野では、電子カルテなどの大規模なデータセットが利用可能になっているが、これらのデータセットには多くの欠損値が含まれている。
欠損値の問題は機械学習手法の適用に重要な前提条件となるが、これは非常に困難な課題である。
本論文では、Kriging/最良線形不偏推定量(BLUP)を用いた多階層確率的最適化アプローチを提案し、大規模医療データの欠損値補完に適用する。
問題設定
Gaussian random fieldモデルを仮定し、観測値ベクトルYと共分散関数ϕ(x,y;θ)を定義する。
未知パラメータβとθを推定し、新しい位置x0での予測値ˆY(x0)を求める問題を定式化する。
共分散行列Cの逆行列計算の数値的安定性が課題となる。
多階層アプローチ
多階層表現を用いることで、共分散行列の条件数を大幅に改善し、数値的に安定な解を得ることができる。
多階層BLUPは元のBLUPと完全に等価であるが、数値的に安定である。
多階層表現を用いることで、GLS推定量ˆβと予測値ˆγを効率的に計算できる。
実験と結果
NIS(National Inpatient Sample)データセットを用いて、提案手法の性能を評価した。
totchg(total charge)変数の欠損値補完において、提案手法は既存手法(PMM, PPD, BEM, DA)に比べて38%のrMSE減少、75%のMAPE減少、72%のlnQ改善を達成した。
他の手法(kNN-R, kNN, GLS, DDL)と比較しても優れた性能を示した。
長さ(los)の予測においても良好な結果が得られた。
Stats
総入院費(totchg)の予測において、提案手法のrMSEは0.535、MAPEは0.861、lnQは0.492であった。
既存手法のrMSEは0.864~0.869、MAPEは1.235~3.449、lnQは1.00~1.787であった。