Core Concepts
FRED는 텍스트 예측을 설명하기 위해 다음과 같은 핵심 통찰을 제공한다: 1) 핵심 단어 집합 식별, 2) 각 토큰에 대한 중요도 점수 할당, 3) 예측을 변경하는 유사한 예제 생성
Abstract
이 논문에서는 FRED(Faithful and Robust Explainer for textual Documents)라는 새로운 텍스트 예측 해석 방법을 제안한다. FRED는 다음과 같은 세 가지 핵심 통찰을 제공한다:
- 예측에 가장 큰 영향을 미치는 최소 단어 집합을 식별한다. 이 단어들을 제거하면 예측 신뢰도가 크게 떨어진다.
- 각 토큰의 중요도 점수를 할당하여 모델 출력에 대한 영향을 반영한다.
- 원본 문서와 유사하지만 다른 예측을 하는 예제를 생성하여 반사실적 설명을 제공한다.
FRED의 신뢰성을 보장하기 위해 해석 가능한 분류기에 대한 엄격한 이론적 분석을 수행했다. 또한 실험 평가를 통해 FRED가 기존 방법들보다 텍스트 모델에 대한 통찰을 더 잘 제공한다는 것을 입증했다.
Stats
예측 신뢰도가 50% 감소하는 최소 토큰 집합은 {"decent", "great"}이다.
예측 신뢰도 평균은 0.556이다.
Quotes
"Interpretability is essential for machine learning models to be trusted and deployed in critical and sensitive contexts, such as in medical or legal domains."
"Local and model-agnostic methods are particularly well-suited for this task because they can explain predictions made by any model for a specific instance without requiring any knowledge about the underlying model."