マルチモーダル機械翻訳(MMT)システムにおける視覚グラウンディングとマスキングの課題は、異なるアプローチを促進しています。新しい具体的なトークンの検出方法と選択方法が導入されました。これらの手法は、ソース文から具体的でコンテキストに関連するトークンを選択し、それらをマスキングすることで、翻訳タスク中のビジュアルコンテキストの使用を向上させます。NLTKやMDETRなどの手法が導入され、それぞれ異なる結果が示されました。また、GRAM MMTアーキテクチャを使用してモデルをトレーニングし、パフォーマンス向上が示されました。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Braeden Bowe... lúc arxiv.org 03-06-2024
https://arxiv.org/pdf/2403.03075.pdfYêu cầu sâu hơn