Основные понятия
그래프 기반 RAG 접근법은 대규모 문서 집합에 대한 질문 중심 요약을 가능하게 한다.
Аннотация
이 논문은 질문 중심 요약(QFS)을 위한 그래프 기반 RAG(Retrieval-Augmented Generation) 접근법을 제안한다. 기존의 RAG 기법은 개별 문서 내에 존재하는 정보를 검색하고 활용하는 데 적합하지만, 전체 문서 집합에 대한 질문(예: "이 데이터셋의 주요 주제는 무엇인가?")에는 적합하지 않다. 이에 저자들은 다음과 같은 그래프 RAG 파이프라인을 제안한다:
문서 텍스트 추출 및 청크화
엔티티, 관계, 주장 등의 그래프 요소 추출
그래프 요소 요약
커뮤니티 탐지를 통한 그래프 커뮤니티 생성
커뮤니티 요약 생성
질문에 대한 커뮤니티 답변 생성 및 종합
이를 통해 대규모 문서 집합에 대한 질문 중심 요약이 가능해진다. 실험 결과, 그래프 RAG 접근법은 기존 RAG 대비 포괄성과 다양성 측면에서 우수한 성능을 보였다. 또한 중간 수준의 커뮤니티 요약을 활용하는 경우 소스 텍스트 요약 대비에도 우수한 성능을 보였다.
Статистика
데이터셋 크기는 약 100만 토큰 수준이다.
그래프 인덱스는 포드캐스트 데이터셋의 경우 8,564개 노드와 20,691개 간선, 뉴스 기사 데이터셋의 경우 15,754개 노드와 19,520개 간선으로 구성된다.
커뮤니티 요약의 수준에 따라 사용되는 토큰 수가 크게 달라진다. 최상위 수준 커뮤니티 요약(C0)은 최대 토큰 수 대비 2.3-2.6%만 사용하지만, 소스 텍스트 요약(TS)은 100%의 토큰을 사용한다.
Цитаты
"그래프 RAG 접근법은 대규모 문서 집합에 대한 질문 중심 요약을 가능하게 한다."
"중간 수준의 커뮤니티 요약을 활용하는 경우 소스 텍스트 요약 대비에도 우수한 성능을 보였다."