Conceptos Básicos
대규모 언어 모델의 한계를 극복하기 위해 등장한 검색 기반 생성 기술은 외부 데이터베이스에서 관련 정보를 검색하여 모델의 정확성과 신뢰성을 높이는 기술이다.
Resumen
이 논문은 대규모 언어 모델(LLM)의 한계를 극복하기 위해 등장한 검색 기반 생성(Retrieval-Augmented Generation, RAG) 기술의 발전 과정을 체계적으로 분석하고 있다.
먼저 RAG 기술의 발전 단계를 Naive RAG, Advanced RAG, Modular RAG로 구분하여 설명한다. Naive RAG는 기본적인 검색-생성 프로세스를 따르지만, 정확성과 신뢰성 문제가 있다. Advanced RAG는 검색 과정을 최적화하고 생성 과정을 개선하여 이러한 문제를 해결하고자 한다. Modular RAG는 더 유연한 구조를 가지며, 다양한 모듈을 활용하여 검색과 생성 과정을 개선한다.
다음으로 RAG 기술의 핵심 구성요소인 '검색', '생성', '증강'에 대해 자세히 다룬다. 검색 과정에서는 데이터 구조, 색인 최적화, 질의 최적화 등의 기술이 소개된다. 생성 과정에서는 검색 결과의 큐레이션과 언어 모델의 fine-tuning 기법이 설명된다. 증강 과정에서는 반복적 검색, 재귀적 검색, 적응적 검색 등의 기법이 소개된다.
마지막으로 RAG 기술의 평가 방법과 향후 과제를 제시한다. RAG 기술은 다양한 하위 과제와 데이터셋, 벤치마크를 통해 평가되고 있으며, 현재 직면한 과제와 향후 발전 방향이 논의된다.
Estadísticas
"대규모 언어 모델은 인상적인 능력을 보여주지만, 환각, 지식의 시대 낙후, 불투명하고 추적 불가능한 추론 과정과 같은 문제에 직면한다."
"검색 기반 생성(RAG)은 외부 데이터베이스의 지식을 통합함으로써 이러한 문제를 해결할 수 있는 유망한 솔루션으로 부상했다."
Citas
"RAG 기술은 LLM의 내재적 지식과 외부 데이터베이스의 방대하고 역동적인 저장소를 시너지 있게 결합한다."
"RAG 시스템은 검색, 생성, 증강 기술의 삼위일체적 기반을 면밀히 검토한다."