본 논문은 다중 모달 기계 번역(MMT) 분야의 한계를 해결하기 위해 새로운 데이터셋 3AM을 제안한다. 기존 MMT 데이터셋은 시각 정보가 부족하여 모델이 이를 활용하지 못하고 언어 정보에 의존하는 문제가 있었다.
3AM 데이터셋은 다음과 같은 과정으로 구축되었다:
실험 결과, 3AM 데이터셋으로 학습한 MMT 모델이 기존 데이터셋 대비 우수한 성능을 보였다. 이는 3AM 데이터셋이 모델로 하여금 시각 정보를 효과적으로 활용하도록 유도하기 때문이다. 이를 통해 본 연구는 다중 모달 학습 분야의 발전에 기여할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xinyu Ma,Xue... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18413.pdfDeeper Inquiries