Core Concepts
コントロールバリエイトを用いることで、Shapley値の推定の変動を大幅に抑えることができる。これにより、ブラックボックスモデルの予測に対する信頼性の高い説明を提供できる。
Abstract
本論文では、Shapley値の推定の変動を抑えるためのControlSHAPと呼ばれる手法を提案している。Shapley値は機械学習モデルの予測に対する特徴量の重要度を定量化する手法として広く用いられているが、サンプリングに基づく近似計算では推定値の変動が大きくなるという課題がある。
ControlSHAPでは、Shapley値の推定値とモデルの一次/二次近似の推定値の相関を利用したコントロールバリエイトの手法を用いることで、推定値の変動を大幅に抑えることができる。具体的には以下の通り:
特徴量が独立の場合は二次近似、相関がある場合は一次近似のShapley値を事前に計算しておく
元のShapley値推定値とこの近似値の相関を利用してコントロールバリエイトを構築
コントロールバリエイトを用いて元のShapley値推定値を調整
この手法は、特徴量の相関構造に応じて適切な近似を選択でき、かつ計算コストも低い。実験では、様々なデータセットやモデルにおいて推定値の変動を50%から90%程度削減できることを示している。また、特徴量の重要度ランキングの安定性も大幅に向上する。
本手法は、ブラックボックスモデルの予測に対する信頼性の高い説明を提供するための有効な手段となる。
Stats
特徴量jの重要度の変化: (xj - μj) * Jj - 1/2 * Hjj * (σ2
j + (μj - xj)2)
特徴量j以外の特徴量kの重要度の変化: -Hjk * (σ2
jk + (μj - xj)(μk - xk))
Quotes
"Shapley値は機械学習モデルの予測に対する特徴量の重要度を定量化する手法として広く用いられているが、サンプリングに基づく近似計算では推定値の変動が大きくなるという課題がある。"
"ControlSHAPでは、Shapley値の推定値とモデルの一次/二次近似の推定値の相関を利用したコントロールバリエイトの手法を用いることで、推定値の変動を大幅に抑えることができる。"