Core Concepts
현재 언어 모델은 환각 문제를 겪고 있지만, 사실 검증 능력은 우수할 수 있다.
Abstract
이 연구는 현재 언어 모델의 환각 문제와 사실 검증 능력을 종합적으로 분석하였다.
첫째, 인간 평가를 통해 현재 언어 모델의 환각 문제를 양적으로 확인하였다. 실험 결과, GPT-3.5를 포함한 대형 언어 모델들이 위키피디아 도메인에서도 25% 미만의 사실적 출력을 생성하는 것으로 나타났다. 이는 언어 모델의 환각 문제가 심각함을 보여준다.
둘째, 언어 모델을 사실 검증기로 활용하는 방안을 탐구하였다. 실험 결과, 언어 모델은 생성보다는 사실 검증에 더 강점을 보였다. 특히 FLAN-T511B 모델이 가장 우수한 성능을 보였는데, 이는 다른 대형 모델들보다 우수한 증거 활용 능력과 강건성, 일반화 능력을 가지고 있기 때문으로 분석된다.
추가로 연구진은 사실 검증 과정에서 증거의 관련성, 강건성, 일반화 능력 등의 영향을 분석하였다. 예를 들어 문맥 의존적인 문장을 검증할 때는 문맥을 제거하는 것이 도움이 되며, 숫자 관련 문장은 검증이 어려운 것으로 나타났다.
이 연구는 언어 모델의 환각 문제와 사실 검증 능력에 대한 종합적인 분석을 제공하며, 향후 신뢰할 수 있는 생성 모델과 사실 검증 방법 개발에 기여할 것으로 기대된다.
Stats
GPT-3.5는 위키피디아 도메인에서 25% 미만의 사실적 출력을 생성한다.
FLAN-T511B는 사실 검증 성능이 가장 우수하며, GPT-3.5와 ChatGPT보다 우수하다.
문맥 의존적인 문장을 검증할 때는 문맥을 제거하는 것이 도움이 된다.
숫자 관련 문장은 사실 검증이 어렵다.
Quotes
"GPT-3.5 only manages to produce factual outputs less than 25% of the time; other models perform even worse."
"FLAN-T511B, the least factual generator in our study, even surprisingly outperforms GPT3.5 and ChatGPT for fact verification."
"It is more difficult to evaluate sentences that are from larger generators, dependent on the context or involving numerals."