이 논문은 자동 비디오 더빙을 위한 신경망 기계 번역 모델의 출력 텍스트 길이를 소스 텍스트와 일치시키는 방법을 제안한다.
기존 접근법은 문자 수나 단어 수를 맞추는 것에 초점을 맞췄지만, 이 논문에서는 음소 개수 비율을 최적화하는 방식을 제안한다. 음소 개수는 발화 시간과 더 밀접한 관련이 있기 때문이다.
강화 학습 기반의 훈련 전략을 사용하여 음소 개수 비율이 일정 범위 내에 있도록 모델을 최적화한다. 매 훈련 단계에서 음소 개수 비율이 허용 범위를 벗어나는 문장쌍을 필터링하여 모델을 fine-tuning한다.
음소 개수 비율 최적화로 인한 번역 품질 저하 문제를 해결하기 위해 학생-교사 아키텍처를 제안한다. 교사 모델은 번역 품질이 높은 모델이고, 학생 모델은 음소 개수 비율이 우수한 모델이다. 이를 통해 번역 품질과 길이 준수 사이의 균형을 유지할 수 있다.
음소 개수 준수 점수(PCC)라는 새로운 평가 지표를 제안하여 모델의 성능을 측정한다.
실험 결과, 제안 모델이 기존 최신 모델 대비 약 36% 향상된 PCC 점수를 달성했다. 또한 학생-교사 아키텍처를 통해 번역 품질 저하를 완화할 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문