Core Concepts
자동화된 사실 검증 작업에서 모델의 예측을 설명하기 위한 다양한 유형의 설명을 정의하고, 각 설명 유형에 대한 평가 기준을 제안한다.
Abstract
이 논문은 자동화된 사실 검증 작업에서 모델의 예측을 설명하기 위한 세 가지 유형의 설명을 정의한다:
자유 형식 설명: 모델의 예측을 뒷받침하는 명제들의 순서열
연역적 설명: 명제들 간의 관계를 포함하는 설명
논증적 설명: 주장과 근거로 구성된 논증들의 집합
각 설명 유형에 대해 다음과 같은 평가 기준을 제안한다:
자유 형식 설명:
일관성: 설명 내 명제들 간 모순이 없는지 평가
연역적 설명:
비순환성: 설명 내 명제들 간 순환이 없는지 평가
약/강 관련성: 모든 명제가 예측과 관련되는지 평가
비중복성: 불필요한 명제가 포함되지 않았는지 평가
논증적 설명:
논증 간 비순환성: 논증들 간 순환이 없는지 평가
변증법적 충실성: 모델의 예측 신뢰도와 논증의 강도가 일치하는지 평가
수용가능성: 예측에 대한 논증이 방어 가능한지 평가
이를 통해 자동화된 사실 검증 작업에서 모델의 예측을 설명하는 다양한 방식을 체계화하고, 각 설명 유형에 대한 평가 기준을 제시한다.
Stats
자동화된 사실 검증 작업은 지식 집약적이므로 증거 요약이 중요하다.
허위 정보 주장은 극단적이고 감정적이며 편향적이므로 설명을 통해 사용자의 신뢰를 얻는 것이 중요하다.
Quotes
"As deep neural models in NLP become more complex, and as a consequence opaque, the necessity to interpret them becomes greater."
"Explanations extracted for deep neural models' predictions take a variety of forms."
"We take the view that, depending on context and human preferences, rationales should be in one of three different formats."