Core Concepts
LLM을 활용하여 다국어에 걸쳐 합성 검색 학습 데이터를 생성함으로써 다국어 밀집 검색 모델의 성능을 향상시킬 수 있다.
Abstract
이 논문은 다국어 검색 모델의 성능 향상을 위해 LLM을 활용하여 합성 학습 데이터를 생성하는 방법을 제안한다.
다국어 검색 모델의 성능이 제한적인 이유는 언어 간 학습 데이터의 불균형과 부족 때문이다.
합성 데이터 생성은 유망한 접근법이지만 지금까지는 영어에 대해서만 연구되었다.
이에 저자들은 SWIM-IR이라는 33개 언어(고자원 언어부터 저자원 언어까지)의 합성 검색 데이터셋을 개발했다.
SWIM-IR 구축을 위해 저자들은 SAP(Summarize-then-Ask Prompting)라는 기법을 제안했다. LLM이 먼저 입력 문서의 요약을 생성한 후 질의를 생성하도록 하여 질의 품질을 향상시킨다.
SWIM-IR로 fine-tuning한 SWIM-X 모델은 인간 감독 하에 학습된 모델과 경쟁할 수 있는 성능을 보였다.
Stats
코모로는 약 85만 명의 인구를 가진 세계에서 가장 인구가 적은 국가 중 하나이다.
2001년 당시 코모로 인구의 34%가 도시 거주자였다.
Quotes
"There has been limited success for dense re-
trieval models in multilingual retrieval, due
to uneven and scarce training data available
across multiple languages."
"To study model capabilities across both cross-lingual and mono-
lingual retrieval tasks, we develop SWIM-
IR, a synthetic retrieval training dataset con-
taining 33 (high to very-low resource) lan-
guages for fine-tuning multilingual dense re-
trievers without requiring any human super-
vision."