核心概念
랜덤화된 앙상블 모델의 예측 불확실성으로 인해 기존 반사실적 설명 방법은 견고성이 낮다. 이를 해결하기 위해 확률적 접근을 통해 견고한 반사실적 설명을 생성할 수 있는 방법을 제안한다.
摘要
이 논문은 랜덤화된 앙상블 모델의 예측 불확실성이 반사실적 설명의 견고성에 미치는 영향을 분석한다.
-
기존 반사실적 설명 방법은 랜덤화된 앙상블 모델의 예측 불확실성을 고려하지 않아 견고성이 낮다는 것을 보여준다. 특히 특징이 많은 데이터셋에서 이러한 문제가 심각하게 나타난다.
-
확률적 접근을 통해 견고한 반사실적 설명을 생성하는 방법을 제안한다. 이 방법은 앙상블 모델의 개별 학습기 예측 확률을 활용하여 견고한 반사실적 설명을 생성한다.
-
볼록 학습기로 구성된 앙상블에 대해 이론적 보장을 제공한다. 또한 유한 표본 크기에 대한 견고성 보장 방법도 제안한다.
-
다양한 데이터셋에 대한 실험 결과, 제안 방법이 기존 방법에 비해 견고성이 크게 향상되었음을 보여준다. 특히 많은 특징을 가진 데이터셋에서 큰 성능 향상을 보인다.
-
특징 중요도와 반사실적 설명의 견고성 간 관계를 분석하여, 데이터셋 특성에 따라 견고한 반사실적 설명 생성의 어려움이 달라짐을 확인한다.
統計資料
랜덤 포레스트 앙상블의 개별 학습기 예측이 베르누이 분포를 따른다.
앙상블 점수 함수 hN(x; ξ)는 이항 분포를 따른다.
개별 학습기의 목표 클래스 예측 확률 p(x)는 hN(x; ξ0)의 추정량이다.
引述
"Counterfactual explanations describe how to modify a feature vector in order to flip the outcome of a trained classifier."
"Obtaining robust counterfactual explanations is essential to provide valid algorithmic recourse and meaningful explanations."
"We show that naive explanations that ignore the algorithmic uncertainty of random ensembles are not robust to model retraining even when the training data is fixed."