Core Concepts
확률적 구조화 질의(PSQ)는 정렬된 코퍼스에서 통계적으로 도출된 번역 확률을 사용하는 다국어 정보 검색(CLIR) 방법이다. PSQ는 희소 색인을 사용하는 효율적인 CLIR을 위한 강력한 기준선이며, 더 효과적이지만 대규모 텍스트 컬렉션 검색에는 비효율적인 신경망 CLIR 시스템의 첫 단계로 유용하다.
Abstract
이 논문은 효율적인 Python 구현을 통해 PSQ를 재검토한다. 정렬된 병렬 텍스트에서 추정할 수 있는 모든 번역 확률을 제한 없이 사용하면 역색인 사용이 불가능해지므로, PSQ의 효과성과 효율성은 번역 확률 가지치기 방식에 따라 달라진다. 다양한 현대 CLIR 테스트 컬렉션에 대한 실험을 통해 다기준 가지치기가 효과성-효율성 트레이드오프에 도움이 된다는 것을 보여준다.
Stats
정렬된 병렬 텍스트의 수: 프랑스어 17.6M, 이탈리아어 3.6M, 독일어 4.4M, 스페인어 15.7M, 중국어 12.1M, 페르시아어 20.8M, 러시아어 14.5M
문서 수: 프랑스어 130K, 이탈리아어 158K, 독일어 295K, 스페인어 454K, 중국어 309K, 3,179K, 페르시아어 2,232K, 러시아어 4,628K
주제 수: 프랑스어 60, 이탈리아어 60, 독일어 60, 스페인어 60, 중국어 100, 49, 46, 45