Core Concepts
개념 기반 설명은 언어 모델의 내부 상태를 사람이 이해할 수 있는 방식으로 설명할 수 있지만, 이에 대한 표준화되고 엄격한 평가 방법론이 부족하다. 이 연구는 개념 기반 설명의 가독성과 충실도를 평가하는 새로운 방법을 제안한다.
Abstract
이 논문은 개념 기반 설명에 대한 평가 방법을 제안한다. 먼저 다양한 개념 기반 설명 방법을 통합할 수 있는 개념의 정의를 제시한다. 이를 바탕으로 개념의 충실도를 측정하는 방법을 제안한다. 충실도는 개념을 교란시켰을 때 모델의 출력이 얼마나 변화하는지로 측정한다.
다음으로 개념의 가독성을 자동으로 측정하는 방법을 제안한다. 개념을 가장 잘 활성화시키는 패턴들의 응집성을 측정함으로써 가독성을 추정한다. 이는 기존의 사용자 평가에 비해 비용 효율적이고 신뢰할 수 있다.
마지막으로 이러한 평가 지표들의 신뢰성과 타당성을 측정하는 메타 평가 방법을 제안한다. 이를 통해 개념 기반 설명 평가 지표의 효과성을 검증할 수 있다.
실험 결과, 제안한 평가 방법이 기존 방법에 비해 우수한 성능을 보였다. 특히 가독성 측정에서 사용자 평가와 높은 상관관계를 보여 효과적인 대체 지표로 활용될 수 있음을 확인했다.
Stats
개념을 교란시켰을 때 모델 출력의 변화 차이가 크면 개념의 충실도가 높다.
개념을 가장 잘 활성화시키는 패턴들의 응집성이 높으면 개념의 가독성이 높다.
Quotes
"개념 기반 설명은 언어 모델의 내부 상태를 사람이 이해할 수 있는 방식으로 설명할 수 있지만, 이에 대한 표준화되고 엄격한 평가 방법론이 부족하다."
"개념의 충실도를 측정하는 방법을 제안한다. 충실도는 개념을 교란시켰을 때 모델의 출력이 얼마나 변화하는지로 측정한다."
"개념의 가독성을 자동으로 측정하는 방법을 제안한다. 개념을 가장 잘 활성화시키는 패턴들의 응집성을 측정함으로써 가독성을 추정한다."