Centrala begrepp
テキスト専用翻訳モデルにマルチモーダル機能を追加することで、高いパフォーマンスを達成しました。
Sammanfattning
最新の研究では、マルチモーダル機械翻訳(MMT)が注目されており、画像などの追加的な情報源を活用して文の翻訳を自動化することが重要視されています。本記事では、Multi30kデータセットに基づくMMTモデルは過学習しやすく、通常のテキスト専用テストセットで性能が低下することが示されています。そこで、パフォーマンスの高いテキスト専用機械翻訳(MT)モデルを出発点として、ビジョン-テキストアダプターレイヤーを追加し、MTモデルを徐々にMMTモデルに変換しています。このアプローチにより、Multi30k 2016 en-deテストセットで46.5 BLEU4スコアと0.61 CoMMuTEスコアの最先端のパフォーマンスを達成しました。
Statistik
Multi30k 2016 en-deテストセットで46.5 BLEU4スコアと0.61 CoMMuTEスコアを達成した。
テキスト専用MTモデルはnewstestデータセットに対して高いパフォーマンスを保持した。
Multi30kデータセットは非常に小さなデータセットであり、MMTモデルは自然とMulti30kデータセットにオーバフィッティングしやすい。
ビジョン情報がトレーニング中に使用されるようゲート付きメカニズムが採用された。
プリトレーニング後のファインチューニングによりMulti30kテストセットで最先端のパフォーマンスが実現された。
Citat
"Much work in MMT focuses on the Multi30k dataset, a dataset comprising 30,014 image captions and corresponding translations in different languages."
"We achieve a state-of-the-art performance on the Multi30k 2016 en-de test set of 46.5 BLEU4 score and 0.61 CoMMuTE score via this approach."
"Our model performs well when given non-matching inputs while still having high performance against CoMMuTE and the Multi30k test sets."