核心概念
본 연구는 기존 다중 모달 기계 번역 데이터셋의 한계를 극복하기 위해 모호성이 높고 다양한 시각적 개념을 포함하는 새로운 데이터셋 3AM을 제안한다. 실험 결과 3AM 데이터셋을 사용한 모델이 시각 정보를 효과적으로 활용하여 우수한 성능을 보였다.
要約
본 논문은 다중 모달 기계 번역(MMT) 분야의 한계를 해결하기 위해 새로운 데이터셋 3AM을 제안한다. 기존 MMT 데이터셋은 시각 정보가 부족하여 모델이 이를 활용하지 못하고 언어 정보에 의존하는 문제가 있었다.
3AM 데이터셋은 다음과 같은 과정으로 구축되었다:
- 기존 비전-언어 데이터셋에서 모호한 문장을 추출하고 단어 의미 구분 모델을 사용하여 모호성 점수를 계산한다.
- 고득점 문장을 선별하여 전문 번역가가 중문으로 번역한다.
- 최종적으로 약 26,000개의 영-중 병렬 문장 데이터셋을 구축한다.
실험 결과, 3AM 데이터셋으로 학습한 MMT 모델이 기존 데이터셋 대비 우수한 성능을 보였다. 이는 3AM 데이터셋이 모델로 하여금 시각 정보를 효과적으로 활용하도록 유도하기 때문이다. 이를 통해 본 연구는 다중 모달 학습 분야의 발전에 기여할 것으로 기대된다.
統計
영어 문장에 모호한 단어가 포함되어 있어 이미지 정보가 없으면 정확한 번역이 어렵다.
예를 들어 "A green gecko is seen on a palm."에서 "palm"은 "손바닥"과 "야자수"의 두 가지 의미를 가지고 있다.
이미지 정보를 활용하면 "야자수"가 정확한 의미라는 것을 알 수 있다.
引用
"기존 MMT 데이터셋은 시각 정보가 부족하여 모델이 이를 활용하지 못하고 언어 정보에 의존하는 문제가 있었다."
"3AM 데이터셋이 모델로 하여금 시각 정보를 효과적으로 활용하도록 유도하기 때문에 우수한 성능을 보였다."