核心概念
다국어 언어 모델에서 의미적으로 유사한 표현을 서로 다른 언어 간에 정렬하는 기술에 대한 종합적인 고찰
摘要
이 논문은 다국어 언어 모델에서 교차 언어 정렬에 대한 기술을 종합적으로 다루고 있다.
먼저 교차 언어 정렬의 두 가지 정의를 제시한다. 첫 번째는 의미적으로 유사한 단어나 문장이 표현 공간에서 더 유사한 표현을 가지도록 하는 것이고, 두 번째는 소스 언어에서 학습한 예측 모델이 타겟 언어에서도 관련 패턴을 인식할 수 있도록 하는 것이다.
이어서 교차 언어 정렬을 측정하는 다양한 방법들을 소개한다. 코사인 유사도, 단어 및 문장 검색 과제, 제로샷 전이 성능, 언어 식별 등이 대표적이다.
다음으로 교차 언어 정렬을 향상시키기 위한 다양한 방법론을 제시한다. 병렬 데이터를 활용한 방법, 대조 학습 기반 방법, 사전 학습 모델 수정 방법, 어댑터 튜닝 방법, 데이터 증강 방법, 표현 공간 변환 방법 등이 포함된다.
마지막으로 이러한 방법론들의 장단점과 향후 과제를 논의한다. 특히 생성 모델에서의 교차 언어 정렬 문제가 새로운 도전과제로 제시된다.
统计
유사한 의미의 단어나 문장이 표현 공간에서 더 유사한 표현을 가져야 한다.
소스 언어에서 학습한 예측 모델이 타겟 언어에서도 관련 패턴을 인식할 수 있어야 한다.
교차 언어 정렬은 복잡한 최적화 문제이며, 언어 간 의미 차이, 번역의 한계, 언어 유형 차이 등으로 인해 달성하기 어려울 수 있다.
引用
"Cross-lingual alignment, the meaningful similarity of representations across languages in multilingual language models, has been an active field of research in recent years."
"We argue that this is related to the first view but, importantly, is not identical to it. This allows us to discuss the literature in a new way."
"Strong alignment inherently requires greater distance of dissimilar meanings within a language."