이 논문은 실제 세계의 코드 혼합 문장을 영어로 번역하는 문제를 다룹니다.
먼저, 기존의 힌디-영어 병렬 코퍼스를 활용하여 합성 HINMIX 코드 혼합 데이터셋을 생성합니다.
이후 RCMT라는 강건한 교란 기반 공동 학습 모델을 제안합니다. 이 모델은 깨끗하고 노isy한 단어 간 파라미터 공유를 통해 실제 세계의 코드 혼합 텍스트에 존재하는 잡음을 다룹니다.
또한 벵골어-영어 코드 혼합 번역을 위한 제로샷 설정을 탐구합니다.
실험 및 종합적인 분석을 통해 RCMT가 기존의 코드 혼합 및 강건한 번역 방법보다 우수함을 입증합니다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Kartik,Sanja... ב- arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16771.pdfשאלות מעמיקות