Core Concepts
복잡한 기계 학습 예측기의 예측에 대한 설명의 충실도를 향상시키기 위해 삽입 및 삭제 지표를 최적화하는 방법을 제안한다.
Abstract
이 연구는 복잡한 기계 학습 예측기의 예측에 대한 설명의 충실도를 향상시키는 방법을 제안한다.
예측기의 행동을 얼마나 정확하게 반영하는지를 측정하는 삽입 및 삭제 지표를 사용하여 예측기를 최적화한다.
원래의 삽입 및 삭제 지표가 미분 불가능하므로, 이를 차별화 가능한 형태로 확장하고 이를 정규화기로 사용한다.
예측 손실과 함께 이 정규화기를 최적화함으로써, 예측기는 정확한 예측과 더불어 설명의 충실도를 높일 수 있게 된다.
실험 결과, 제안 방법을 사용하여 학습한 예측기는 기존 방법에 비해 삽입 및 삭제 지표가 크게 향상되었으며, 예측 정확도도 유지되었다.
Stats
예측기의 출력 확률 fθ(x)y는 소프트맥스 함수로 정규화된다.
삽입 지표는 중요하다고 여겨지는 픽셀을 점진적으로 추가했을 때 예측 확률의 증가를 측정한다.
삭제 지표는 중요하다고 여겨지는 픽셀을 점진적으로 제거했을 때 예측 확률의 감소를 측정한다.
Quotes
"The quality of explanations for the predictions made by complex machine learning predictors is often measured using insertion and deletion metrics, which assess the faithfulness of the explanations, i.e., how accurately the explanations reflect the predictor's behavior."
"To improve the faithfulness, we propose insertion/deletion metric-aware explanation-based optimization (ID-ExpO), which optimizes differentiable predictors to improve both the insertion and deletion scores of the explanations while maintaining their predictive accuracy."