핵심 개념
실제 세계의 코드 혼합 문장을 영어로 효과적으로 번역하기 위해 합성 데이터 생성과 공동 학습 기반 모델을 제안한다.
초록
이 논문은 실제 세계의 코드 혼합 문장을 영어로 번역하는 문제를 다룹니다.
먼저, 기존의 힌디-영어 병렬 코퍼스를 활용하여 합성 HINMIX 코드 혼합 데이터셋을 생성합니다.
이후 RCMT라는 강건한 교란 기반 공동 학습 모델을 제안합니다. 이 모델은 깨끗하고 노isy한 단어 간 파라미터 공유를 통해 실제 세계의 코드 혼합 텍스트에 존재하는 잡음을 다룹니다.
또한 벵골어-영어 코드 혼합 번역을 위한 제로샷 설정을 탐구합니다.
실험 및 종합적인 분석을 통해 RCMT가 기존의 코드 혼합 및 강건한 번역 방법보다 우수함을 입증합니다.
통계
코드 혼합 문장에서 단어 간 전환 지점이 전체 단어의 25%를 차지한다.
코드 혼합 문장의 평균 토큰 수는 100.9이고, 중간값은 88이다.
코드 혼합 문장의 평균 문자 수는 18.24이고, 중간값은 16이다.
인용구
"실제 세계의 구조화되지 않은 텍스트는 철자 오류와 맞춤법 오류에 매우 취약하다."
"코드 혼합 언어의 잡음 특성은 대부분 탐구되지 않은 상태로, 언어의 형태론적 풍부함을 고려할 때 극도로 어려운 문제이다."