대규모 언어 모델의 블랙박스 접근을 통한 신뢰도 추정
대규모 언어 모델의 응답에 대한 신뢰도를 추정하는 간단하고 확장 가능한 프레임워크를 제안한다. 다양한 프롬프트 변형을 통해 생성된 특징을 사용하여 해석 가능한 모델(로지스틱 회귀)을 학습하여 신뢰도를 예측한다. 이 접근법은 여러 벤치마크 질문 답변 및 요약 작업에서 기존 방법보다 우수한 성능을 보인다. 또한 해석 가능성을 통해 신뢰도 예측에 중요한 특징을 식별할 수 있으며, 이를 통해 한 언어 모델에 대해 학습된 신뢰도 모델이 다른 언어 모델에도 효과적으로 적용될 수 있음을 발견했다.