핵심 개념
대형 언어 모델은 동일한 문맥 내에서 상호 모순되는 문장을 생성하는 자기 모순적 환각에 취약하다. 이 문제를 해결하기 위해 우리는 자기 모순을 유발, 탐지 및 완화하는 포괄적인 방법론을 제안한다.
초록
이 논문은 대형 언어 모델(LLM)의 자기 모순적 환각에 대해 포괄적으로 조사한다. 주요 평가 과제는 개방 도메인 텍스트 생성이지만, 질문 답변에도 적용할 수 있다.
분석 결과, 자기 모순은 LLM에 광범위하게 존재하며, ChatGPT의 경우 17.7%의 문장에서 발견되었다. 이 중 35.2%는 온라인 텍스트로 확인할 수 없어 검색 기반 방법으로는 해결하기 어렵다.
이에 따라 우리는 프롬프팅 기반의 새로운 프레임워크를 제안한다. 이 방법은 LLM의 내부 논리 추론 능력을 활용하여 자기 모순을 효과적으로 탐지(F1 약 80%)하고 완화(최대 89.5% 제거)할 수 있다. 또한 텍스트의 정보성과 유창성을 유지한다.
우리의 접근법은 범용성이 높아 질문 답변 과제에도 적용할 수 있다. 결과적으로 검색 기반 방법을 보완하는 실용적이고 효과적인 프레임워크를 제공한다.
통계
ChatGPT가 생성한 문장의 17.7%에서 자기 모순이 발견되었다.
이 중 35.2%는 온라인 텍스트로 확인할 수 없었다.
GPT-4의 경우 자기 모순 비율이 15.7%로 가장 낮았다.
인용구
"대형 언어 모델(LLM)은 의미 없거나 신뢰할 수 없는 내용을 생성하는 환각에 취약하다."
"자기 모순은 LLM의 비사실성을 드러내는 중요한 사례이다."
"자기 모순을 제거하면 비사실성이 엄격하게 감소한다."