이 논문은 장문 문맥 이해와 충실도를 평가하기 위한 종합적인 벤치마크인 L-CiteEval을 소개한다. L-CiteEval은 11개의 다양한 도메인 과제를 포함하며, 8K에서 48K 사이의 문맥 길이를 다룬다. 11개의 최신 폐쇄형 및 오픈소스 장문 문맥 모델을 테스트한 결과, 오픈소스 모델은 인용 정확도와 재현율 측면에서 폐쇄형 모델에 크게 뒤처지는 것으로 나타났다. 이는 현재의 오픈소스 장문 문맥 모델이 제공된 문맥보다는 내재된 지식에 기반하여 응답할 가능성이 크다는 것을 시사한다. 또한 RAG 기법을 활용하면 장문 문맥 모델의 충실도를 크게 향상시킬 수 있지만, 생성 품질이 약간 감소한다는 것을 발견했다. 더불어 장문 문맥 모델의 인용 생성 과정과 주의 메커니즘 간의 상관관계를 확인했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문