Core Concepts
본 연구는 신경망 모델에 대한 강건하고 현실적인 반사실적 설명을 생성하기 위한 강건 최적화 기법을 제안한다. 이 기법은 근접성, 강건성, 현실성을 동시에 최적화하여 기존 방법들의 한계를 극복한다.
Abstract
이 논문은 신경망 분류기에 대한 반사실적 설명(Counterfactual Explanation, CE)을 생성하는 새로운 방법을 제안한다. CE는 입력 데이터와 최소 거리를 가지면서 다른 클래스로 분류되는 데이터 포인트이다.
기존 CE 생성 방법들은 모델 파라미터 변화에 취약한 문제가 있었다. 이를 해결하기 위해 강건성을 고려한 CE 생성 방법들이 제안되었지만, 이들은 현실성을 보장하지 못하거나 강건성과 근접성 사이의 균형을 이루지 못했다.
본 연구에서는 강건 최적화 기법을 활용하여 근접성, 강건성, 현실성을 동시에 최적화하는 PROPLACE 방법을 제안한다. PROPLACE는 이터레이션 알고리즘을 통해 강건하고 현실적인 CE를 생성하며, 수렴성, 건전성, 완전성을 보장한다.
실험 결과, PROPLACE는 기존 6개 방법 중 5개가 강건성을 목표로 하는 방법들과 비교하여 세 가지 평가 지표(근접성, 강건성, 현실성) 모두에서 최고 성능을 달성했다.
Stats
모델 파라미터 변화 범위 내에서 CE가 유효할 확률이 100%이다.
CE와 입력 간 평균 L1 거리가 0.039이다.
CE의 평균 10-Local Outlier Factor가 1.24이다.
Quotes
"기존 방법들은 강건성을 보장하지 못하거나 현실성을 고려하지 않는다."
"본 연구에서는 근접성, 강건성, 현실성을 동시에 최적화하는 PROPLACE 방법을 제안한다."