Core Concepts
NovelQA는 장편 소설 텍스트에 대한 언어 모델의 이해 능력을 평가하기 위해 개발된 새로운 벤치마크이다. 이를 통해 현재 언어 모델의 장편 텍스트 처리 및 추론 능력의 한계를 확인하고, 향후 발전 방향을 제시한다.
Abstract
NovelQA는 영어 소설을 기반으로 구축된 새로운 벤치마크이다. 기존 벤치마크와 달리 평균 200,000 토큰 이상의 매우 긴 텍스트를 다룬다. 질문, 정답, 증거 등 모든 데이터는 숙련된 문학 전공자들이 수작업으로 구축하였다.
질문 유형은 복잡도(multi-hop, single-hop, detailed)와 초점 영역(times, meaning, span, setting, relation, character, plot)에 따라 분류되었다. 이를 통해 언어 모델의 장편 텍스트 이해 능력을 다각도로 평가할 수 있다.
실험 결과, 현존하는 최신 장편 언어 모델들도 NovelQA에서 46.88% 미만의 정확도를 보여, 여전히 장편 텍스트 이해에 어려움을 겪고 있음을 확인했다. 특히 multi-hop 추론, 세부 정보 파악, 100,000 토큰 이상의 긴 텍스트 처리 등에서 한계를 보였다. 이는 향후 장편 언어 모델 개발을 위한 중요한 시사점을 제공한다.
Stats
장편 소설 이해 능력 평가 결과, GPT-4는 46.88%, Claude 2.1은 46.04%의 정확도를 보였다.
복잡도별 정확도: multi-hop 32.83%, single-hop 63.93%, detailed 37.58%
증거 회수 정확도: GPT-4 31.73%, Claude 2.1 24.95%
Quotes
"Even the highest scores (71.80% and 46.88% for GPT-4 in generative and multichoice settings, respectively) suggest there is considerable room for improvement in long-context understanding."
"This difficulty is particularly apparent in answering multi-hop questions and queries that probe meanings, relationships, spans, and timelines, highlighting a significant gap in the models' long-range comprehension."
"The results underscore the necessity for further advancements in LLMs to improve their long-context comprehension and computational literary studies."