Kernekoncepter
다국어 번역 모델의 디코더 표현이 이중언어 번역 모델에 비해 일관적으로 더 낮은 등방성을 보이며, 이는 언어별 정보를 모델링하는 데 많은 표현 용량을 사용하기 때문인 것으로 나타났다.
Resumé
이 연구는 다국어 번역 모델과 이중언어 번역 모델의 내부 표현 공간 활용도를 비교 분석하였다.
먼저, 다국어 번역 모델의 디코더 표현이 이중언어 번역 모델에 비해 일관적으로 더 낮은 등방성을 보이는 것을 확인하였다. 이는 다국어 디코더가 각 언어별 정보를 모델링하는 데 많은 표현 용량을 사용하기 때문인 것으로 분석되었다.
반면, 다국어 번역 모델의 인코더 표현은 이중언어 모델에 비해 약간 더 높은 등방성을 보였다. 이는 다국어 인코더가 두 언어쌍의 영어 입력을 공유하면서 표현 용량이 증가한 것으로 해석된다.
또한 데이터 규모가 증가할수록 전반적인 표현 용량이 감소하는 경향이 관찰되었다. 이는 출력 토큰 임베딩의 퇴화 현상과 관련이 있는 것으로 보인다.
다국어 병렬 데이터를 사용한 실험에서는 디코더 표현의 등방성이 이중언어 모델보다 높아지는 경우도 있었는데, 이는 언어 간 유사성이 높을 때 나타나는 현상으로 해석된다.
Statistik
다국어 번역 모델의 디코더 표현은 이중언어 번역 모델에 비해 일관적으로 더 낮은 등방성을 보인다.
다국어 번역 모델의 인코더 표현은 이중언어 모델에 비해 약간 더 높은 등방성을 보인다.
데이터 규모가 증가할수록 전반적인 표현 용량이 감소하는 경향이 관찰된다.
다국어 병렬 데이터를 사용한 실험에서는 언어 간 유사성이 높을 때 디코더 표현의 등방성이 이중언어 모델보다 높아지는 경우도 있다.
Citater
"Across different data resource levels and different source-target language pairs, the isotropy of one-to-many decoder representations for a given source-target pair is reduced as contrasted with decoder representations in a comparable bilingual model."
"Source-side representation capacity improves slightly in one-to-many models over bilingual models. However, the extent of this encoder capacity improvement is smaller than the extent of the decoder capacity reduction."
"With further analysis, we find that reduced space utilization in multilingual decoder representations seems driven by language-specific information occupying much of the available representation space."