본 연구는 대규모 언어 모델의 설명 가능성 향상을 위한 SLIME(Statistical and Linguistic Insights for Model Explanation) 방법론을 제안한다. 이 방법은 통합 그래디언트(Integrated Gradients)를 사용하여 각 토큰의 기여도를 계산하고, 언어 분석 도구인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 중요 언어 특징을 식별한다. 통계 분석을 통해 각 언어 특징이 모델 성능에 미치는 영향을 평가한다.
이 방법론을 영어 기반 Cookie Theft 그림 설명 과제 데이터셋에 적용하여 알츠하이머 질환 탐지 모델을 학습하고 설명했다. 결과적으로 SLIME은 모델의 결정에 중요한 언어 특징을 식별하고, 이러한 특징이 실제 알츠하이머 질환의 언어적 특성을 반영한다는 것을 보여준다. 이를 통해 대규모 언어 모델의 투명성과 신뢰성을 높일 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문