본 연구는 책 길이 문서(100K 토큰 이상)에 대한 LLM 요약문의 충실도와 내용 선택을 평가하는 최초의 대규모 인간 평가를 수행했다. 데이터 오염 문제를 해결하기 위해 2023년 또는 2024년에 출판된 소설 책을 대상으로 했으며, 각 책을 완독한 평가자를 고용하여 비용과 인지적 부담을 최소화했다.
총 26권의 책에 대한 3,158개의 LLM 요약문 청구에 대한 주석을 수집했으며, 이를 통해 CLAUDE-3-OPUS가 다른 폐쇄형 LLM을 크게 능가하고 오픈소스 MIXTRAL이 GPT-3.5-TURBO와 대등한 수준의 충실도를 보여주는 것을 확인했다.
주석 분석 결과, 대부분의 충실도 저하 청구는 사건과 등장인물 상태와 관련되어 있으며, 이를 무효화하려면 서사에 대한 간접적인 추론이 필요한 것으로 나타났다. LLM 기반 자동 평가기는 특히 충실도 저하 청구 탐지에 있어 인간 평가와 강한 상관관계를 보이지 않는 것으로 확인되었다.
또한 본 연구는 책 요약에서의 내용 선택 오류를 탐구했다. 핵심 서사 요소의 누락과 책 후반부 내용에 대한 과도한 강조 등의 오류 유형을 발견했다. 이러한 결과는 책 요약 평가와 장문 이해력 향상을 위한 중요한 방향을 제시한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yekyung Kim,... في arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.01261.pdfاستفسارات أعمق