Core Concepts
랜덤 문서를 포함하는 것이 LLM의 정확도를 크게 향상시킬 수 있다.
Abstract
이 연구는 RAG 시스템의 검색 구성 요소에 대한 최초의 종합적이고 체계적인 분석을 수행했다. 특히 검색기가 어떤 유형의 문서를 검색해야 하는지에 초점을 맞췄다. 분석 결과, 가장 높은 점수를 받은 문서 중 질문과 직접 관련이 없는 문서(즉, 답변을 포함하지 않는 문서)를 포함하면 LLM의 효과성이 부정적인 영향을 받는다는 것을 발견했다. 더욱 놀랍게도, 랜덤 문서를 추가하면 LLM의 정확도가 최대 35%까지 향상되는 것으로 나타났다. 이러한 결과는 검색과 LLM의 통합을 위한 적절한 전략을 조사할 필요성을 강조하며, 이 분야의 향후 연구를 위한 기반을 마련한다.
Stats
랜덤 문서를 추가하면 Llama2-7b 모델의 정확도가 최대 35% 향상될 수 있다.
BM25 검색기를 사용하면 Llama2-7b 모델의 정확도가 3-4%p 더 향상된다.
완전히 무작위적인 문서(Reddit 데이터셋 또는 무작위 단어로 구성된 문장)를 추가하면 Llama2-7b 모델의 정확도가 추가로 2.3%p 향상된다.
Quotes
"랜덤 문서를 포함하는 것이 LLM의 정확도를 크게 향상시킬 수 있다."
"가장 높은 점수를 받은 문서 중 질문과 직접 관련이 없는 문서를 포함하면 LLM의 효과성이 부정적인 영향을 받는다."
"이러한 결과는 검색과 LLM의 통합을 위한 적절한 전략을 조사할 필요성을 강조한다."