本研究では、3AMと呼ばれる新しいマルチモーダル機械翻訳データセットを提案している。このデータセットは、既存のビジョン・ランゲージデータセットから曖昧な文章を収集し、専門の翻訳者によって中国語に翻訳されたものである。
データセットの構築プロセスは以下の通りである:
3AMデータセットの分析結果から、既存のマルチモーダルデータセットに比べて、3AMには以下のような特徴があることが分かった:
さらに、3AMデータセットを使って複数のマルチモーダル機械翻訳モデルを評価した結果、視覚情報を活用できるモデルが、テキストのみのモデルよりも優れた性能を示すことが明らかになった。これは、3AMデータセットが視覚情報の理解を促進することを示唆している。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Xinyu Ma,Xue... klo arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18413.pdfSyvällisempiä Kysymyksiä