この研究は、名前エンティティ間の関係を予測するために、視覚的およびテキスト情報を組み合わせたマルチモーダルアプローチであるMFS-HVEの提案とその効果に焦点を当てています。MFS-HVEは、画像ガイドされた注意、オブジェクトガイドされた注意、およびハイブリッド特徴注意から構成されるマルチモーダル融合モジュールを使用しています。実験結果は、MFS-HVEが他の単一モダリティの基準線やマルチモーダル融合手法よりも優れた性能を発揮することを示しています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiaying Gong... at arxiv.org 03-04-2024
https://arxiv.org/pdf/2403.00724.pdfDeeper Inquiries