핵심 개념
MRAG(Multi-Head RAG)는 다양한 측면의 정보를 요구하는 복잡한 질문에 대한 검색 증강 생성(RAG)의 정확도를 향상시키기 위해 Transformer의 멀티 헤드 어텐션 레이어를 활용하는 새로운 RAG 방식입니다.
초록
MRAG: 멀티 헤드 어텐션을 활용한 다각적 질문 처리
이 연구 논문에서는 기존 RAG 시스템이 여러 문서 검색 시 발생하는 문제점을 해결하기 위해 고안된 새로운 RAG 방식인 MRAG(Multi-Head RAG)를 소개합니다. MRAG는 Transformer 모델의 멀티 헤드 어텐션 레이어를 활용하여 데이터의 다양한 측면을 포착하고, 이를 통해 복잡한 질문에 대한 검색 정확도를 향상시킵니다.
기존 RAG 시스템의 한계
기존 RAG 시스템은 단일 문서 검색에는 효과적이지만, 여러 문서, 특히 내용이 크게 다른 여러 문서를 검색해야 하는 경우 어려움을 겪습니다. 이는 각 문서의 임베딩이 임베딩 공간에서 서로 멀리 떨어져 있어 동시에 검색하기 어렵기 때문입니다.
MRAG의 핵심 아이디어
MRAG는 이러한 문제를 해결하기 위해 Transformer의 멀티 헤드 어텐션 레이어를 활용합니다. 멀티 헤드 어텐션은 각 헤드가 데이터의 다른 측면을 학습할 수 있도록 하여, 다각적인 정보를 효과적으로 포착할 수 있습니다. MRAG는 이러한 특징을 이용하여 각 헤드의 활성화 값을 임베딩으로 사용합니다. 이를 통해 데이터 항목과 질문의 다양한 측면을 나타내는 임베딩을 생성하여 검색 정확도를 향상시킵니다.
MRAG 파이프라인
MRAG 파이프라인은 데이터 준비 단계와 질문 실행 단계로 구성됩니다.
- 데이터 준비 단계: 텍스트 청크를 멀티 헤드 MRAG 임베딩으로 변환하여 벡터 데이터베이스에 저장합니다. 각 멀티 헤드 임베딩은 여러 개의 단일 헤드 임베딩으로 구성되며, 각각은 원본 텍스트 청크를 가리킵니다.
- 질문 실행 단계: 입력 질문을 멀티 헤드 임베딩으로 변환하고, 데이터베이스에서 가장 가까운 멀티 헤드 임베딩과 해당 텍스트 청크를 찾습니다. 이때, 각 헤드 공간에 대한 중요도 점수를 기반으로 하는 특수 멀티 헤드 검색 전략을 사용합니다.
MRAG의 장점
- 다각적 질문 처리: 여러 측면의 정보를 요구하는 복잡한 질문에 대한 검색 정확도를 향상시킵니다.
- 다양한 데이터 유형 및 모델과의 호환성: 다양한 유형의 데이터를 임베딩하고, 다양한 임베딩 모델 및 검색 방식과 함께 사용할 수 있습니다.
- 효율성: 추가적인 LLM 질의, 모델 인스턴스, 저장 공간 또는 여러 번의 임베딩 모델 추론이 필요하지 않습니다.
평가 및 결과
연구팀은 MRAG의 성능을 평가하기 위해 다양한 측면을 포함하는 합성 데이터 세트와 실제 산업 사례를 기반으로 하는 데이터 세트를 사용했습니다. 평가 결과, MRAG는 기존 RAG 방식보다 검색 정확도가 최대 20% 향상된 것으로 나타났습니다.
결론
MRAG는 다각적 질문에 대한 RAG 시스템의 정확도와 효율성을 향상시키는 새로운 RAG 방식입니다. MRAG는 다양한 분야에서 LLM 애플리케이션의 신뢰성과 정확성을 향상시킬 수 있는 잠재력을 가지고 있습니다.
통계
MRAG는 표준 RAG 방식에 비해 관련성이 최대 20% 향상되었습니다.
MRAG는 단일 측면 질문에 대해 표준 RAG와 동등한 성능을 보입니다.
Fusion MRAG는 Fusion RAG보다 성능이 뛰어나지만 분산이 더 큽니다.
인용구
"기존 RAG 솔루션은 내용이 크게 다른 여러 문서를 가져와야 하는 쿼리에 중점을 두지 않습니다."
"이러한 쿼리는 자주 발생하지만 임베딩 공간에서 이러한 문서의 임베딩이 멀리 떨어져 있어 모두 검색하기 어렵기 때문에 어려움을 겪습니다."
"이 백서에서는 간단하면서도 강력한 아이디어, 즉 디코더 레이어 대신 Transformer의 멀티 헤드 어텐션 레이어의 활성화를 활용하여 다각적 문서를 가져오는 키로 사용하는 새로운 체계인 멀티 헤드 RAG(MRAG)를 소개합니다."