Core Concepts
TREC Neural Cross-Language Information Retrieval (NeuCLIR) 트랙의 주요 목표는 신경망 기반 접근법이 다국어 정보 검색에 미치는 영향을 연구하는 것이다. 이 트랙은 중국어, 페르시아어, 러시아어 뉴스 기사와 중국어 과학 초록의 대규모 컬렉션을 구축했다.
Abstract
TREC NeuCLIR 트랙은 2023년 두 번째 해를 맞이했다. 첫 해에는 뉴스에 대한 CLIR 작업이 포함되었고, 12개 팀이 참여했다. 올해 트랙에는 다음과 같은 새로운 작업이 추가되었다:
다국어 정보 검색(MLIR)
기술 문서 CLIR 파일럿 작업
이 개요에서는 트랙의 5가지 작업을 설명하고 결과를 보고한다.
주요 작업은 영어 주제를 사용하여 중국어, 페르시아어, 러시아어 뉴스 문서에 대한 순위 검색이다. 새로운 MLIR 작업에서는 영어 주제를 사용하여 세 언어의 문서에서 단일 순위 목록을 생성해야 한다. 또한 기술 문서 CLIR 파일럿 작업에서는 영어 주제를 사용하여 중국어 학술 초록을 검색한다.
뉴스 컬렉션은 작년과 동일하지만, 새로운 주제가 개발되었다. 주제 개발 과정에서 얻은 교훈을 바탕으로 MLIR 작업에 유용한 주제를 만들고자 했다. 총 76개의 주제가 개발되었고, 이 중 62개 중국어 주제, 60개 페르시아어 주제, 62개 러시아어 주제, 65개 MLIR 주제가 평가에 사용되었다.
Stats
중국어 문서 약 300만 개, 페르시아어 문서 약 200만 개, 러시아어 문서 약 500만 개
총 76개의 주제가 개발되었고, 이 중 62개 중국어 주제, 60개 페르시아어 주제, 62개 러시아어 주제, 65개 MLIR 주제가 평가에 사용되었음