이 연구는 정보 검색 기술, 현대 사전 언어 모델, 근사 최근접 이웃 검색 알고리즘을 활용하여 역방향 사전 시스템을 개발한다. 기존 예측 기반 접근법과 달리 이 접근법은 특별한 모델 학습이 필요 없어 새로운 환경이나 언어로 쉽게 확장할 수 있다.
이 시스템은 에스토니아어 사전 자원 Sõnaveeb에 적용되었다. 두 가지 평가 방식을 통해 성능을 검증했다. 첫째, 사전 내 동의어 관계를 활용한 레이블 없는 평가 방식을 제안했다. 둘째, 기존 영어 데이터셋을 에스토니아어와 러시아어로 확장하여 레이블 기반 평가를 수행했다.
평가 결과, 다국어 검색 모델이 가장 우수한 성능을 보였다. 특히 에스토니아어 데이터로 학습된 모델과 검색 목적으로 학습된 모델이 가장 좋은 결과를 나타냈다. 이를 통해 제안한 접근법이 다국어 역방향 사전 구축에 효과적임을 입증했다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問