核心概念
저자 자원이 부족한 언어의 교차 언어 문장 임베딩을 향상시키기 위해 단어 정렬 모델을 활용하여 단어 수준의 정렬을 명시적으로 수행하는 새로운 프레임워크를 제안한다.
摘要
이 논문은 저자 자원이 부족한 언어의 교차 언어 문장 임베딩을 향상시키기 위한 새로운 프레임워크를 제안한다. 현재 교차 언어 문장 임베딩 모델은 저자 자원이 부족한 언어의 단어 수준 정렬이 잘 이루어지지 않는 문제가 있다. 이를 해결하기 위해 저자는 단어 정렬 모델을 활용하여 단어 수준의 정렬을 명시적으로 수행하는 WACSE(Word Aligned Cross-lingual Sentence Embedding) 프레임워크를 제안한다.
WACSE 프레임워크는 다음 세 가지 목표를 통해 구현된다:
- 정렬된 단어 예측(Aligned Word Prediction, AWP): 병렬 문장 내 단어 간 정렬을 학습
- 단어 번역 순위화(Word Translation Ranking, WTR): 단어 수준의 의미적 정렬을 학습
- 번역 순위화(Translation Ranking, TR): 문장 수준의 의미적 정렬을 학습
실험 결과, WACSE 프레임워크는 저자 자원이 부족한 언어의 교차 언어 문장 임베딩 성능을 크게 향상시켰다. 또한 다양한 고자원 언어 작업에서도 경쟁력 있는 성능을 보였다.
統計資料
저자 자원이 부족한 언어(tl, jv, sw, ml, te, mr)의 위키피디아 문서 수는 45,750 ~ 160,712개 수준이다.
저자 자원이 부족한 언어(kk, te, ka, jv)의 병렬 문장 수는 18,190 ~ 317,252개 수준이다.
引述
"현재 교차 언어 문장 임베딩 모델은 저자 자원이 부족한 언어의 단어 수준 정렬이 잘 이루어지지 않는 문제가 있다."
"WACSE 프레임워크는 단어 정렬 모델을 활용하여 단어 수준의 정렬을 명시적으로 수행한다."