核心概念
Rashomon効果と安定性を考慮した変数重要度の推定フレームワークを提案する。これにより、データ生成プロセスの真の変数重要度を正確に捉えることができる。
要約
本論文では、変数重要度を推定する際のRashomon効果と安定性の問題に取り組む新しいフレームワークを提案している。
主な内容は以下の通り:
Rashomon効果:同じデータセットに対して複数の良いモデルが存在する可能性がある。そのため、単一のモデルに基づいて変数重要度を評価するのは適切ではない。
安定性:同じデータセットに対しても、Rashomon集合が不安定である可能性がある。そのため、Rashomon集合に基づいて変数重要度を評価するのも適切ではない。
提案手法(Rashomon重要度分布, RID):Rashomon集合全体にわたる変数重要度の分布を推定する。これにより、Rashomon効果と安定性の両方を考慮した変数重要度の評価が可能となる。
理論的保証:RIDの推定量は、データ生成プロセスの真の変数重要度分布に収束することが保証される。
実験結果:合成データおよび実データの分析を通じて、提案手法の有効性を示している。特に、既存手法では見出せなかった重要な変数を発見できることを示している。
統計
変数Xjの重要度が0以下である確率は1-P(RIVj > 0)である。
変数Xjの重要度の期待値は(ϕmax - ϕmin) - E[∫(1 - Σ1[f ∈ Rε_D(n)] 1[ϕj(f, D(n)) ≤ k] / Σ1[f ∈ Rε_D(n)]) dk]である。