대규모 언어 모델은 사실과 부합하지 않거나 입력 문맥과 일치하지 않는 출력을 생성하는 경향이 있다. 이 논문은 다양한 벤치마크를 통해 각 모델의 환각 경향을 정량적으로 측정하고 비교하는 환각 리더보드를 소개한다.