マルチモーダル機械翻訳(MMT)システムにおける視覚グラウンディングとマスキングの課題は、異なるアプローチを促進しています。新しい具体的なトークンの検出方法と選択方法が導入されました。これらの手法は、ソース文から具体的でコンテキストに関連するトークンを選択し、それらをマスキングすることで、翻訳タスク中のビジュアルコンテキストの使用を向上させます。NLTKやMDETRなどの手法が導入され、それぞれ異なる結果が示されました。また、GRAM MMTアーキテクチャを使用してモデルをトレーニングし、パフォーマンス向上が示されました。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Braeden Bowe... ที่ arxiv.org 03-06-2024
https://arxiv.org/pdf/2403.03075.pdfสอบถามเพิ่มเติม