Core Concepts
RAG 시스템은 실제 데이터베이스에 존재하는 사소한 텍스트 오류에 매우 취약하며, 이는 검색기와 리더 모두에 심각한 영향을 미칠 수 있다.
Abstract
이 연구는 RAG(Retrieval-Augmented Generation) 시스템의 두 가지 주요 취약점을 다룹니다:
검색기와 리더 구성 요소 간의 상호 의존성: RAG 시스템의 성능은 검색기와 리더의 연속적인 상호작용에 크게 의존하므로, 이 두 구성 요소를 동시에 고려해야 합니다.
실제 데이터베이스에 존재하는 사소한 텍스트 오류에 대한 취약성: 기존 연구는 주로 검색 결과의 관련성 또는 모순적 정보와 같은 고수준 오류에 초점을 맞추었지만, 실제로는 사소한 오타와 같은 저수준 오류가 더 큰 위협이 될 수 있습니다.
이를 해결하기 위해 연구진은 GARAG(Genetic Attack on RAG)라는 새로운 공격 방법을 제안했습니다. GARAG는 유전 알고리즘을 사용하여 검색기와 리더 구성 요소를 동시에 공격하는 적대적 문서를 생성합니다. 실험 결과, GARAG는 RAG 시스템의 성능을 크게 저하시킬 수 있으며, 특히 사소한 오타와 같은 저수준 교란에 매우 취약한 것으로 나타났습니다. 이는 실제 세계에 배포된 RAG 시스템의 안전성에 심각한 위협이 될 수 있음을 시사합니다.
Stats
45 million turkeys were consumed on Thanksgiving Day alone in 2015.
85 percent of Americans partake in the Thanksgiving meal.
Quotes
"Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations"
"The robustness of recent Large Language Models (LLMs) has become increasingly crucial as their applicability expands across various domains and real-world applications."