핵심 개념
최신 기계 학습 및 딥 러닝 기술을 활용하여 아랍어 의미 검색의 효과성을 평가하고, 이를 검색 기반 생성(RAG) 시스템에 적용하여 성능 향상을 모색한다.
초록
이 연구는 아랍어 의미 검색 기술을 평가하고 검색 기반 생성(RAG) 시스템에 적용하는 것을 목표로 한다.
- 데이터셋 생성:
- 고객 지원 통화 요약문 2,030개와 406개의 검색 쿼리로 구성된 데이터셋을 생성했다.
- GPT-4를 활용하여 실제와 유사한 검색 쿼리와 관련 문서 간 관련성 점수를 자동으로 생성했다.
- 평가 지표:
- nDCG, MRR, mAP 등 문서 순위화 성능을 평가하는 지표를 사용했다.
- 의미 검색 접근법:
- 5가지 문장 인코더(Paraphrase Multilingual MiniLM, Cmlm Multilingual, Paraphrase Multilingual MPNet, Multilingual DistilBERT, XLM-RoBERTa)를 평가했다.
- 인코더 성능을 무작위 순위화와 최악의 순위화 결과와 비교했다.
- RAG 파이프라인 구현:
- 816개의 FAQ 질문과 답변으로 구성된 데이터셋을 구축했다.
- 의미 검색, 지식 기반 답변 생성, 생성 답변 평가 등의 단계로 RAG 파이프라인을 구현했다.
결과적으로 Paraphrase Multilingual MPNet 인코더가 가장 우수한 의미 검색 성능을 보였으며, 이를 RAG 시스템에 적용했을 때 가장 높은 정확도를 달성했다. 이를 통해 의미 검색 기술이 RAG 시스템의 성능 향상에 기여할 수 있음을 확인했다.
통계
데이터셋에는 2,030개의 고객 지원 통화 요약문과 406개의 검색 쿼리가 포함되어 있다.
데이터셋의 10%를 수동으로 검토한 결과, 매우 관련성이 높은 문서와 관련성이 없는 문서 간 오분류가 2건에 불과했다.