대형 언어 모델은 종종 잘못되거나 허구적인 응답을 생성하므로, 특정 입력에 대한 모델의 불확실성을 정확하게 정량화하는 것이 중요하다. 본 연구는 언어 모델의 불확실성 및 신뢰도 측정을 위한 새로운 평가 프레임워크인 순위 보정을 제안한다.