核心概念
텍스트 전용 번역 모델에 다중 모달 기능을 추가하여 성능 향상을 이루는 방법
摘要
현재의 다중 모달 기계 번역(MMT) 작업은 Multi30k 데이터셋을 사용하지만, 이로 인해 모델이 Multi30k 데이터셋에 지나치게 과적합되어 일반적인 텍스트 전용 테스트 세트에서 성능이 매우 나쁘게 나타남.
Multi30k와 일반적인 텍스트 전용 데이터셋 양쪽에서 성능을 향상시키기 위해 성능이 우수한 텍스트 전용 기계 번역(MT) 모델을 MMT 모델의 시작점으로 사용.
MMT 모델을 만들기 위해 MT 모델에 비전-텍스트 어댑터 레이어를 추가하고, 소스 텍스트의 비전 기반 마스킹을 사용한 사전 훈련 및 Multi30k에서 세밀 조정을 통해 MT 모델을 MMT 모델로 변환.
Multi30k 2016 en-de 테스트 세트에서 46.5 BLEU4 점수와 0.61 CoMMuTE 점수로 최고 성능을 달성.
統計資料
Multi30k 2016 en-de 테스트 세트에서 46.5 BLEU4 점수
Multi30k 2016 en-de 테스트 세트에서 0.61 CoMMuTE 점수
引述
"MMT 모델은 Multi30k 테스트 세트에서 높은 성능을 달성할 수 있지만 이미지 정보를 사용하지 않고도 Multi30k 테스트 세트에서 올바른 번역을 달성할 수 있음." - 인용
"이미지 정보를 사용하여 번역 작업을 돕기 위해 게이팅 매개변수를 사용하여 모델이 텍스트 정보와 이미지 정보를 얼마나 가중치를 두고 사용하는지 확인할 수 있음." - 인용