Concepts de base
HLTCOE 팀은 PLAID, mT5 재순위화기, 문서 번역 등 다양한 방법을 활용하여 TREC 2023 NeuCLIR 트랙에 참여했다. 특히 Translate-Train, Translate-Distill, 다국어 Translate-Train 등의 기법을 통해 교차언어 및 다국어 정보 검색 모델을 개발했다.
Résumé
HLTCOE 팀은 TREC 2023 NeuCLIR 트랙에 다양한 방식으로 참여했다.
첫째, PLAID 모델을 활용했다. PLAID는 ColBERT 아키텍처를 기반으로 하는 정보 검색 모델이다. HLTCOE 팀은 PLAID에 Translate-Train, Translate-Distill, 다국어 Translate-Train 등의 기법을 적용했다. Translate-Train은 MS-MARCO 데이터셋의 영어 질의와 문서를 자동 번역하여 교차언어 모델을 학습하는 방식이다. Translate-Distill은 강력한 mT5 재순위화기의 지식을 증류하여 효율적인 모델을 학습하는 방식이다. 다국어 Translate-Train은 MS-MARCO 데이터셋의 문서를 모든 대상 언어로 번역하여 단일 다국어 모델을 학습하는 방식이다.
둘째, mT5 재순위화기를 활용했다. 이는 TREC 2022 NeuCLIR 트랙에서 가장 효과적이었던 접근법이다. HLTCOE 팀은 mT5 재순위화기를 단독으로 사용하거나 PLAID 모델과 결합하여 사용했다.
셋째, 확률적 구조화 질의(PSQ) 기반 희소 검색 모델을 활용했다. PSQ는 질의어와 문서를 확률적으로 매핑하여 교차언어 검색을 수행한다.
넷째, BM25 기반 기준선 모델을 제출했다. 이 모델들은 사람 번역 질의, 기계 번역 질의, 문서 번역 등 다양한 설정으로 실험했다.
HLTCOE 팀의 제출 결과를 살펴보면, mT5 재순위화기와 Translate-Distill 모델이 가장 우수한 성능을 보였다. 다국어 Translate-Train 모델도 다국어 검색 과제에서 좋은 성과를 냈다. 기술 문서 과제에서는 lexical 매칭 모델이 dense 검색 모델보다 더 나은 성능을 보였는데, 이는 MS-MARCO 데이터셋이 기술 문서 도메인에 적합하지 않기 때문으로 보인다.
Stats
일부 주제에 날짜 정보를 추가하여 문서 필터링을 수행했다.
날짜 정보가 추가된 주제 목록은 다음과 같다:
203번 주제: 2021년 3월 23일 ~ 3월 29일
207번 주제: 2020년 9월 21일
220번 주제: 2018년 4월 7일
226번 주제: 2019년 6월 6일
231번 주제: 2018년 11월 30일
232번 주제: 2018년 1월 6일 ~ 1월 14일
238번 주제: 2020년 11월 27일
240번 주제: 2019년 12월 12일
244번 주제: 2017년 12월 11일
245번 주제: 2019년 12월 12일
247번 주제: 2018년 3월 21일
249번 주제: 2019년 7월 12일
253번 주제: 2019년 4월 22일
255번 주제: 2018년 12월
256번 주제: 2018년 3월 29일
257번 주제: 2019년 4월 15일
260번 주제: 2014년 3월 8일
264번 주제: 2018년 7월 27일
265번 주제: 2020년 4월 1일
266번 주제: 2017년 2월 26일
267번 주제: 2018년 1월 1일 ~ 2019년 1월 31일
273번 주제: 2018년 3월 11일
274번 주제: 2021년 3월 11일