Core Concepts
差分プライバシーの適用が異常検知モデルの性能と説明可能性に及ぼす影響を分析し、プライバシーと説明可能性のトレードオフを明らかにする。
Abstract
本研究では、異常検知(AD)アルゴリズムであるIsolation Forest(iForest)とLocal Outlier Factor(LOF)を対象に、差分プライバシー(DP)の適用が性能と説明可能性に及ぼす影響を分析した。
まず、DPを適用した場合のAD性能を評価した。その結果、iForestはLOFに比べてDPの影響を受けやすく、精度が大きく低下することが分かった。一方、LOFはDPに対してより頑健で、性能の低下が小さかった。
次に、説明可能性の観点から分析を行った。SHAPを用いて特徴量の重要度を分析したところ、DPのパラメータ(ε)の値によって、SHAP値の大きさと方向性が大きく変化することが分かった。この変化は、データセットやADアルゴリズムによって異なる傾向を示した。
つまり、DPの適用によってADモデルの性能と説明可能性にトレードオフが生じることが明らかになった。プライバシー保護と説明可能性を両立させるには、適切なDPパラメータの設定が重要であり、データの特性やADアルゴリズムの特性を考慮する必要がある。今後は、プライバシーと説明可能性のバランスを取るための手法の検討が課題となる。
Stats
異常検知モデルの精度(AUC)は、DPの適用によって大幅に低下する。例えば、iForestのAUCは、ε=5の場合74%だったのが、ε=0.01では53%まで低下した。
LOFはiForestに比べてDPの影響を受けにくく、AUCはε=5で74%、ε=0.01でも70%を維持した。
Quotes
「DPの適用によってADモデルの性能と説明可能性にトレードオフが生じる」
「プライバシー保護と説明可能性を両立させるには、適切なDPパラメータの設定が重要」