Core Concepts
검색 기반 생성 모델의 성능 향상을 위해 검색 결과 품질을 평가하는 새로운 접근법을 제안한다. 기존 방식과 달리 생성 모델이 각 검색 결과를 활용하여 생성한 출력을 평가함으로써 검색 모델의 성능을 더 정확하게 측정할 수 있다.
Abstract
이 논문은 검색 기반 생성 모델(Retrieval-Augmented Generation, RAG)의 성능 평가 방법을 제안한다. 기존의 end-to-end 평가 방식은 계산 비용이 많이 들고 검색 모델의 성능을 정확하게 반영하지 못하는 한계가 있다.
저자들은 eRAG라는 새로운 평가 방식을 제안한다. eRAG는 각 검색 결과 문서를 생성 모델에 개별적으로 입력하여 생성된 출력을 평가한다. 이를 통해 각 문서의 관련성을 생성 모델의 성능으로 측정할 수 있다. 다양한 데이터셋에 대한 실험 결과, eRAG가 기존 방식보다 생성 모델의 성능과 더 높은 상관관계를 보였다. 또한 eRAG는 end-to-end 평가 방식에 비해 최대 50배 적은 GPU 메모리를 사용하는 등 계산 효율성도 높다.
Stats
제안한 eRAG 방식은 기존 방식 대비 Kendall's tau 상관계수가 0.168에서 0.494 더 높게 나타났다.
eRAG는 end-to-end 평가 방식 대비 최대 50배 적은 GPU 메모리를 사용한다.
eRAG는 end-to-end 평가 방식 대비 최대 3.252배 더 빠른 속도를 보였다.
Quotes
"전통적인 end-to-end 평가 방식은 계산 비용이 많이 들고 검색 모델의 성능을 정확하게 반영하지 못하는 한계가 있다."
"eRAG는 각 검색 결과 문서를 생성 모델에 개별적으로 입력하여 생성된 출력을 평가함으로써 검색 모델의 성능을 더 정확하게 측정할 수 있다."
"eRAG는 end-to-end 평가 방식 대비 최대 50배 적은 GPU 메모리를 사용하고 최대 3.252배 더 빠른 속도를 보였다."