マルチモーダル機械翻訳(MMT)システムにおける視覚グラウンディングとマスキングの課題は、異なるアプローチを促進しています。新しい具体的なトークンの検出方法と選択方法が導入されました。これらの手法は、ソース文から具体的でコンテキストに関連するトークンを選択し、それらをマスキングすることで、翻訳タスク中のビジュアルコンテキストの使用を向上させます。NLTKやMDETRなどの手法が導入され、それぞれ異なる結果が示されました。また、GRAM MMTアーキテクチャを使用してモデルをトレーニングし、パフォーマンス向上が示されました。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Braeden Bowe... klokken arxiv.org 03-06-2024
https://arxiv.org/pdf/2403.03075.pdfDypere Spørsmål