Core Concepts
대규모 언어 모델의 환각을 효율적이고 광범위하게 탐지하기 위해 사전 학습된 모델을 미세 조정하고 앙상블 기법을 활용한다.
Abstract
이 논문은 SemEval-2024 Task 6 - SHROOM에 참여한 팀의 제출 내용을 소개한다. SHROOM은 유창한 과생성 환각을 식별하는 이진 분류 과제이다.
실험에는 환각 탐지를 위한 사전 학습 모델과 자연어 추론(NLI) 모델의 미세 조정이 포함되었다. 가장 성공적인 전략은 이러한 모델들의 앙상블을 만드는 것이었다. 이를 통해 모델 인지 및 모델 비인지 데이터셋에서 각각 77.8%와 79.9%의 정확도를 달성했다. 이는 주최자의 기준선을 능가하고 대회 최고 성과와 비교해서도 눈에 띄는 결과이다.
실험 결과를 과제별로 분해하고 잘못 분류된 사례와 정확하게 탐지된 사례를 분석하여 환각의 본질에 대한 통찰을 제공한다. 또한 제안된 방법은 시간과 계산 효율성이 높으며 완전한 블랙박스 설정에서 작동한다.
Stats
모델 인지 데이터셋에서 기준선 모델의 정확도는 0.745이다.
모델 비인지 데이터셋에서 기준선 모델의 정확도는 0.697이다.