Core Concepts
언어 모델은 자신이 생성한 참조 문헌이 허구인지 알 수 있다. 이를 통해 언어 모델 생성 과정에서 허구 정보 생성을 줄일 수 있다.
Abstract
이 연구는 언어 모델이 자신이 생성한 참조 문헌이 허구인지 알 수 있는지 조사했다. 연구진은 컴퓨터 과학 분야의 참조 문헌을 대상으로 실험을 진행했다.
주요 내용은 다음과 같다:
직접 질문(DQ)과 간접 질문(IQ) 방식을 사용하여 언어 모델의 참조 문헌 허구 탐지 성능을 평가했다.
DQ는 참조 문헌의 존재 여부를 직접 묻는 방식이고, IQ는 참조 문헌의 저자 정보를 묻는 방식이다.
실험 결과, IQ 방식이 DQ 방식보다 전반적으로 더 나은 성능을 보였다.
또한 DQ와 IQ를 결합한 앙상블 방식이 가장 우수한 성능을 보였다.
이를 통해 언어 모델이 자신의 참조 문헌 허구를 일정 수준 인지할 수 있음을 확인했다.
이는 언어 모델 생성 과정에서 허구 정보 생성을 줄일 수 있는 방향을 제시한다.
Stats
"GPT-4는 46.8%의 참조 문헌 허구율을 보였다."
"ChatGPT는 59.6%의 참조 문헌 허구율을 보였다."
"Llama-2-70B는 66.2%의 참조 문헌 허구율을 보였다."