核心概念
MMTモデルは、視覚情報を使用して翻訳タスクを支援し、複雑な文を翻訳する能力を評価すべきである。
要約
マルチモーダル機械翻訳(MMT)モデルの評価フレームワークに関する論文。MMTの現在の作業はMulti30kテストセットに焦点を当てており、視覚情報の使用が不十分であることが示唆されている。提案されたCoMMuTE評価フレームワークは、視覚情報の使用方法を測定し、複雑な文を翻訳する能力を評価することが重要である。Multi30kテストセットに対してトレーニングされた現在のMMTモデルは、他のテストセットに対してパフォーマンスが低いことが示されている。
統計
Multi30kテストセットは29,000枚のトレーニング画像と1,014枚のバリデーション画像を含む。
CoMMuTEフレームワークでは、50個の曖昧な英語文とそれに関連する2つの画像が含まれている。
WMTニュース翻訳タスクテストセットには2019年(1,997文)および2020年(1,418文)が含まれている。
引用
"多くのMMTモデルはビジュアルコンテキストを利用しない可能性があります"
"提案されたCoMMuTEフレームワークでは、どれだけうまくMMTモデルが視覚情報を使用して翻訳タスクを実行できるかを評価します"