Core Concepts
確定陽性サンプルが無作為に選択されない場合でも、確定陽性と未確定サンプルの比率を正確に推定する手法を提案する。
Abstract
本論文では、確定陽性サンプルが無作為に選択されない(SNAR)場合でも、確定陽性と未確定サンプルの比率を正確に推定する2つのアルゴリズム、PULSCAR とPULSNARを提案している。
PULSCAR アルゴリズムは、確定陽性サンプルが無作為に選択される(SCAR)場合に適用できる。機械学習モデルの出力確率分布を用いて、確定陽性と未確定サンプルの比率αを推定する。
一方、PULSNAR アルゴリズムは、SNAR 場合に適用できる。確定陽性サンプルをクラスタリングし、各クラスタごとにPULSCARを適用して、全体の比率αを推定する。
実験では、合成データおよび実世界のベンチマークデータセットを用いて評価を行った。PULSCAR はSCAR データに対して、PULSNAR はSNAR データに対して、他の手法よりも正確にαを推定できることが示された。また、推定したαを用いて確率の較正や分類性能の向上も実現できることが確認された。
Stats
確定陽性サンプルの割合が1%、5%、10%、20%、30%、40%、50%の合成データを用いた実験では、PULSCAR とPULSNARが他の手法よりも正確にαを推定できた。