이 논문은 장문 문서 질의 응답 시스템을 위한 새로운 접근법인 다중 관점 내용 인식 색인화(MC-indexing)를 제안한다.
주요 내용은 다음과 같다:
장문 문서 질의 응답 데이터셋 구축: 기존 데이터셋에 문서 구조 및 답변 범위 정보를 추가하여 새로운 데이터셋을 구축했다.
내용 기반 문서 분할: 문서를 내용 구조(섹션, 서브섹션 등)에 따라 분할하여 의미 단위로 구성된 청크를 생성한다. 이를 통해 고정 길이 청크 방식의 한계를 극복한다.
다중 관점 색인화: 각 청크를 원문, 키워드, 요약 등 다양한 관점으로 표현하여 색인화한다. 이를 통해 청크의 의미 정보를 풍부하게 표현할 수 있다.
실험 결과 분석: 다양한 검색 모델에 MC-indexing을 적용한 결과, 기존 방식 대비 recall이 최대 42.8% 향상되었다. 또한 생성된 답변의 질도 개선되었다.
이 연구는 장문 문서 검색의 한계를 극복하기 위해 내용 기반 분할과 다중 관점 표현이라는 새로운 접근법을 제안했다는 점에서 의의가 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kuicai Dong,... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15103.pdfDeeper Inquiries