Concetti Chiave
기술 문서에 대한 RAG 시스템 구축 시 임베딩이 도메인 정보를 잘 포착하지 못하는 문제가 있다. 이에 대한 선행 연구 검토와 실험을 통해 모범 사례와 잠재적 과제를 강조한다.
Sintesi
이 논문은 기술 문서에 대한 RAG(Retrieval Augmented Generation) 시스템 구축에 대한 관찰 내용을 다룹니다.
주요 내용은 다음과 같습니다:
임베딩이 도메인 정보를 잘 포착하지 못하는 문제로 인해 기술 문서에 대한 RAG 시스템 구축에 어려움이 있다는 점을 언급합니다.
이에 대한 선행 연구를 검토하고, 검색 성능에 영향을 미치는 요인들(문맥 문서, LLM, 메트릭 등)을 평가한 Chen et al. (2023a)의 연구를 기반으로 실험을 수행합니다.
실험은 통신 및 배터리 용어가 포함된 IEEE 문서를 대상으로 진행되었으며, 청크 길이, 키워드 기반 검색, 검색 결과의 순위 등이 RAG 파이프라인에 미치는 영향을 살펴봅니다.
실험 결과를 바탕으로 다음과 같은 관찰 사항을 도출합니다:
청크 길이가 증가할수록 문장 임베딩의 신뢰성이 낮아짐
검색 결과의 유사도 점수를 기반으로 한 필터링은 신뢰할 수 없음
정의와 정의된 단어를 별도로 사용하는 것이 성능 향상에 도움이 됨
문장 기반 유사도 검색과 문단 기반 검색 결과 활용이 검색기와 생성기 성능을 높임
약어와 관련 문단이 많은 경우 기술 문서에 대한 장문 QA에 특히 유의미한 관찰 사항임
향후 연구 방향으로 RAG 메트릭을 활용한 검색 전략 선택, 후속 질문에 대한 방법 및 평가 지표 개발 등을 제안합니다.
Statistiche
청크 길이가 증가할수록 문장 임베딩의 신뢰성이 낮아진다.
Citazioni
"Retrieval augmented generation (RAG) for technical documents creates challenges as embeddings do not often capture domain information."
"We show that chunk length affects retriever embeddings, and generator augmentation by thresholding retriever results on similarity scores can be unreliable."