Core Concepts
대형 언어 모델을 사용하여 문서 내 자기 모순을 탐지하고 이해하는 것이 어려운 과제임을 보여준다.
Abstract
이 논문은 문서 내 자기 모순을 탐지하고 이해하는 과제에 대해 연구한다. 자기 모순이란 문서 내에서 상호 모순되는 아이디어나 진술이 존재하는 것을 의미한다.
논문에서는 CONTRADOC이라는 새로운 인간 주석 데이터셋을 소개한다. 이 데이터셋은 다양한 도메인, 문서 길이, 자기 모순 유형 및 범위를 포함한다. 또한 GPT3.5, GPT4, PaLM2, LLaMAv2와 같은 최신 오픈소스 및 상용 대형 언어 모델의 성능을 이 데이터셋에서 분석한다.
실험 결과, GPT4가 가장 좋은 성능을 보이며 이 과제에서 인간을 능가할 수 있지만, 여전히 신뢰할 수 없고 더 많은 미묘함과 맥락이 필요한 자기 모순에 어려움을 겪는다는 것을 발견했다. 또한 자기 모순의 유형에 따라 모델의 성능이 크게 달라지는 것을 확인했다.
Stats
문서 내 자기 모순을 탐지하는 것은 GPT4가 가장 잘하며, 전체 문서의 70.2%의 자기 모순을 찾아낼 수 있다.
뉴스 기사에서는 65.8%, 위키피디아 문서에서는 82.0%, 스토리에서는 62.4%의 자기 모순을 찾아낼 수 있다.
객관적인 자기 모순 유형(부정, 숫자)은 주관적인 유형(감정, 관점)보다 더 잘 탐지할 수 있다.
Quotes
"심리학 연구에 따르면 사람들은 익숙하지 않은 정보적인 텍스트에서 모순을 식별하는 데 어려움을 겪는다."
"이전 연구는 문서 수준의 모순에 초점을 맞추거나 단일 유형의 문서로 제한되었다."