NLLB-E5는 다국어 인코더와 단일어 검색 모델을 지식 증류를 통해 결합하여, 다국어 학습 데이터 없이도 다국어 검색을 수행할 수 있는 제로샷 다국어 검색 모델이다.
다국어 정보 검색 시스템은 언어에 따라 문서를 불공정하게 순위화하는 경향이 있다. 이 연구는 이러한 문제를 해결하기 위해 언어 공정성 측정 지표인 PEER(Probability of Equal Expected Rank)를 제안한다.
다국어 문서 집합에서 언어에 관계없이 관련성 점수를 매길 수 있는 다국어 정보 검색 모델을 제안한다.
UMR은 비지도 다국어 밀도 검색을 위한 첫 번째 방법으로, 사전 훈련된 다국어 언어 모델의 생성 능력을 활용하여 밀도 검색기를 훈련합니다.