マルチモーダル機械翻訳(MMT)システムにおける視覚グラウンディングとマスキングの課題は、異なるアプローチを促進しています。新しい具体的なトークンの検出方法と選択方法が導入されました。これらの手法は、ソース文から具体的でコンテキストに関連するトークンを選択し、それらをマスキングすることで、翻訳タスク中のビジュアルコンテキストの使用を向上させます。NLTKやMDETRなどの手法が導入され、それぞれ異なる結果が示されました。また、GRAM MMTアーキテクチャを使用してモデルをトレーニングし、パフォーマンス向上が示されました。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Braeden Bowe... kl. arxiv.org 03-06-2024
https://arxiv.org/pdf/2403.03075.pdfDybere Forespørgsler