核心概念
多言語かつマルチモーダルの名称抽出(MMNER)タスクに取り組むための新しいモデル2M-NERを提案する。2M-NERは、対照学習を使ってテキストと画像の表現を整列させ、マルチモーダルの協調モジュールを統合することで、効果的にモダリティ間の相互作用を表現する。
摘要
本論文では、多言語かつマルチモーダルの名称抽出(MMNER)タスクに取り組むための新しいモデル2M-NERを提案する。
まず、4つの言語(英語、フランス語、ドイツ語、スペイン語)と2つのモダリティ(テキストと画像)を含む大規模なMMNERデータセットを構築した。これは、多言語性とマルチモーダリティの両方をサポートする初の公開データセットである。
次に、2M-NERモデルを提案した。2M-NERは、対照学習を使ってテキストと画像の表現を整列させ、マルチモーダルの協調モジュールを統合することで、効果的にモダリティ間の相互作用を表現する。
最後に、2M-NERモデルを提案したMMNERデータセットで評価した。比較実験の結果、2M-NERが既存の多言語NERモデルや多モーダルNERモデルよりも優れた性能を示すことが分かった。さらに、文レベルの整列がNERモデルに大きな影響を与えることも明らかになった。
统计
多言語NERタスクでは、BERT系モデルがLSTM系モデルよりも優れた性能を示す。
多モーダルNERアプローチは必ずしもユニモーダルよりも優れているわけではない。モダリティの適切な統合が重要な課題である。
提案の2M-NERモデルは、既存の多言語NERモデルや多モーダルNERモデルよりも優れた性能を示す。
引用
"Recent studies have shown that incorporating multilingual and multimodal datasets can enhance the effectiveness of NER."
"To tackle this challenging MMNER task on the dataset, we introduce a new model called 2M-NER, which aligns the text and image representations using contrastive learning and integrates a multimodal collaboration module to effectively depict the interactions between the two modalities."
"Extensive experimental results demonstrate that our model achieves the highest F1 score in multilingual and multimodal NER tasks compared to some comparative and representative baselines."