Core Concepts
SELF-CHECKER는 대화형 언어 모델이 생성한 복잡한 텍스트의 사실성을 평가하기 위한 플러그 앤 플레이 프레임워크이다. 또한 BINGCHECK 데이터셋을 구축하여 대화형 언어 모델 생성 텍스트의 사실 확인 연구를 지원한다.
Abstract
이 논문에서는 SELF-CHECKER라는 사실 확인 프레임워크를 소개한다. SELF-CHECKER는 대화형 언어 모델(LLM)이 생성한 복잡한 텍스트의 사실성을 평가하기 위한 플러그 앤 플레이 모듈로 구성된다.
SELF-CHECKER의 주요 구성 요소는 다음과 같다:
클레임 프로세서: 입력 텍스트에서 검증이 필요한 단순한 클레임들을 추출한다.
쿼리 생성기: 각 클레임에 대한 검색 쿼리를 생성한다.
증거 탐색기: 검색된 문서에서 클레임을 뒷받침하거나 반박하는 증거 문장을 선택한다.
평결 상담자: 수집된 증거를 바탕으로 클레임의 진실성을 판단한다.
또한 이 논문에서는 BINGCHECK 데이터셋을 소개한다. BINGCHECK은 대화형 언어 모델이 생성한 텍스트의 사실 확인을 위해 구축된 데이터셋이다. 이 데이터셋은 사용자와 대화형 언어 모델 간의 상호작용을 수집하고, 인간 평가자가 모델 응답의 사실성을 판단한 것으로 구성된다.
실험 결과, SELF-CHECKER는 대화형 언어 모델 생성 텍스트의 사실 확인에 활용될 수 있음을 보여준다. 그러나 현재 성능은 최신 모델에 비해 여전히 부족하므로, 향후 대화형 언어 모델을 활용한 사실 확인 연구가 필요할 것으로 보인다.
Stats
대화형 언어 모델이 생성한 응답의 평균 길이는 391.5 토큰이다.
응답에서 추출된 클레임의 평균 개수는 9.7개이다.
클레임을 뒷받침하거나 반박하는 증거 문장의 평균 개수는 6.2개이다.
Quotes
"Fact-checking is an essential task in NLP that is commonly utilized to validate the factual accuracy of a piece of text."
"The advent of large language models (LLMs), such as ChatGPT, GPT-4 (OpenAI, 2023), and GPT-3 (Brown et al., 2020), has intensified the importance of this task."
"Existing fact-verification datasets (Thorne et al., 2018; Schuster et al., 2021; Petroni et al., 2022; Kamoi et al., 2023) mainly center on verifying claims from Wikipedia, which do not capture the complexity of lengthy and informative texts generated by LLMs."