이 연구는 대형 언어 모델의 환각 문제를 해결하기 위한 방법론을 제시한다. 먼저 모델의 지식 수준에 따라 환각의 유형을 구분하고, 각 유형에 맞는 벤치마크 데이터셋을 자동으로 구축하는 방법을 제안한다. 이를 통해 모델이 정답을 알고 있음에도 불구하고 잘못된 답변을 생성하는 경우(type 3)에 초점을 맞출 수 있다.
이후 다양한 개입 전략을 실험적으로 분석한다. 개입 시점(답변 전/후), 개입 대상 모듈(MLP, 어텐션, 헤드, 잔차), 개입 방식(정적/동적) 등의 변수를 탐색한다. 실험 결과, 답변 전 어텐션 모듈에 동적으로 개입하는 것이 가장 효과적임을 발견했다. 또한 분류 정확도와 생성 정확도, 퍼플렉서티 등 다양한 지표를 통해 개입의 영향을 종합적으로 평가해야 함을 제시한다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Adi Simhi,Jo... klo arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09971.pdfSyvällisempiä Kysymyksiä