Core Concepts
최신 기계 학습 및 딥 러닝 기술을 활용하여 아랍어 의미 검색의 효과성을 평가하고, 이를 검색 기반 생성(RAG) 시스템에 적용하여 성능 향상을 모색한다.
Abstract
이 연구는 아랍어 의미 검색 기술을 평가하고 검색 기반 생성(RAG) 시스템에 적용하는 것을 목표로 한다.
데이터셋 생성:
고객 지원 통화 요약문 2,030개와 406개의 검색 쿼리로 구성된 데이터셋을 생성했다.
GPT-4를 활용하여 실제와 유사한 검색 쿼리와 관련 문서 간 관련성 점수를 자동으로 생성했다.
평가 지표:
nDCG, MRR, mAP 등 문서 순위화 성능을 평가하는 지표를 사용했다.
의미 검색 접근법:
5가지 문장 인코더(Paraphrase Multilingual MiniLM, Cmlm Multilingual, Paraphrase Multilingual MPNet, Multilingual DistilBERT, XLM-RoBERTa)를 평가했다.
인코더 성능을 무작위 순위화와 최악의 순위화 결과와 비교했다.
RAG 파이프라인 구현:
816개의 FAQ 질문과 답변으로 구성된 데이터셋을 구축했다.
의미 검색, 지식 기반 답변 생성, 생성 답변 평가 등의 단계로 RAG 파이프라인을 구현했다.
결과적으로 Paraphrase Multilingual MPNet 인코더가 가장 우수한 의미 검색 성능을 보였으며, 이를 RAG 시스템에 적용했을 때 가장 높은 정확도를 달성했다. 이를 통해 의미 검색 기술이 RAG 시스템의 성능 향상에 기여할 수 있음을 확인했다.
Stats
데이터셋에는 2,030개의 고객 지원 통화 요약문과 406개의 검색 쿼리가 포함되어 있다.
데이터셋의 10%를 수동으로 검토한 결과, 매우 관련성이 높은 문서와 관련성이 없는 문서 간 오분류가 2건에 불과했다.