核心概念
多言語密な検索を訓練するためのUMRアプローチは、ペアデータを必要とせず、実用性を向上させる可能性がある。
摘要
UMRは、ペアデータなしで訓練される初の非監督法であり、多言語情報検索における有望なパフォーマンスを示す。UMRは2つのステージから成り、反復トレーニングが含まれている。XOR-RetrieveとXOR-Fullの実験結果では、UMRは強力な教師付きベースラインに匹敵するかそれ以上のパフォーマンスを達成している。各コンポーネントの効果を正当化する詳細な分析も行われている。
统计
UMRは48.0% vs. 48.2%でmDPRに匹敵またはわずかに優れたパフォーマンスを達成しています。
XOR-Fullテストセットでは、CORAよりもUMRが優れています。
UMRはTeluguでCORAよりも顕著に優れています。
引用
"Our approach leverages the sequence likelihood estimation capabilities of multilingual language models to acquire pseudo labels for training dense retrievers."
"Experimental results on two benchmark datasets show that UMR outperforms supervised baselines, showcasing the potential of training multilingual retrievers without paired data."
"Our contributions can be summarized in 3-fold: We propose UMR, the first unsupervised method for training multilingual dense retrievers without any paired data."