Core Concepts
대형 언어 모델이 질문에 대해 알고 있는지 여부를 효과적으로 감지할 수 있는 자체 감지 방법을 제안한다.
Abstract
이 논문은 대형 언어 모델(LLM)이 비사실적인 응답을 생성하는 문제를 해결하기 위한 자체 감지 방법을 제안한다.
질문에 대한 다양한 표현을 생성하고, 이에 대한 LLM의 응답 간 일관성을 분석한다. 응답의 일관성이 낮다면 LLM이 해당 질문에 대해 알지 못한다고 판단한다.
질문의 언어적 표현이 LLM에 얼마나 전형적인지를 나타내는 비전형성 점수를 계산한다. 질문이 비전형적이라면 LLM이 해당 질문을 잘 이해하지 못할 가능성이 높다.
이 두 가지 요소를 결합하여 LLM이 질문에 대해 알고 있는지 여부를 예측한다.
실험 결과, 제안한 방법이 최신 LLM(ChatGPT, GPT-4, Vicuna, Llama 2)에서 사실성 문제를 효과적으로 감지할 수 있음을 보여준다. 또한 LLM이 잘 모르는 질문 유형(인기도 낮은 지식, 복잡한 추론 단계, 방해 요소가 있는 표현)을 분석한다.
Stats
알 수 없는 질문에 대한 검색 결과 수는 알고 있는 질문에 비해 크게 적다.
더 많은 추론 단계가 필요한 산술 및 상식 추론 문제의 경우 LLM이 오답을 내는 경향이 있다.
방해 요소가 포함된 질문 표현에서도 LLM이 오답을 내는 경우가 많다.
Quotes
"LLM은 여전히 예기치 않은 허위 내용을 생성한다. 즉, 자신이 모르는 것을 모르고 있으며 무차별적으로 응답을 생성한다."
"LLM이 질문에 대해 알고 있는지 여부를 감지하는 것이 중요한 연구 문제이다."