Conceptos Básicos
本研究は、視覚的情報と言語的情報を統合的に活用することで、文書間イベントコリファレンス解決の精度を向上させる手法を提案する。特に、言語モデルと視覚モデルの間の線形意味転移を活用し、難易度の異なるイベントペアに適切なモデルを適用するアンサンブル手法を開発した。
Resumen
本研究は、文書間イベントコリファレンス解決(CDCR)における多様なモーダル情報の有用性を示した。特に、テキストのみでは曖昧で解決が困難なイベントペアに対して、画像情報が有効な手がかりとなることを明らかにした。
具体的には以下の手法を提案した:
- 言語モデルと視覚モデルの間の線形意味転移(Lin-Sem)を活用し、低計算コストでモーダル間の意味的等価性を保持する手法
- イベントペアの難易度に応じて、テキストのみモデルと多様なモーダルモデルを使い分けるアンサンブル手法
- 既存のテキストのみデータセットにイベント関連の画像を生成・追加する手法
提案手法を、ECB+とAIDA Phase 1の2つのデータセットで評価した。その結果、提案手法が既存手法を上回る性能を示し、特に難易度の高いイベントペアの解決に有効であることを明らかにした。これらの結果は、CDCR課題における多様なモーダル情報の有用性を強く示唆するものである。
Estadísticas
多様なモーダルを活用することで、テキストのみモデルよりも高い割合の難易度の高いイベントペアを正しく解決できる
ECB+データセットでは、提案手法の最良モデルがCoNLL F1スコア91.9を達成し、既存最高値を上回った
AIDA Phase 1データセットでは、提案手法の最良モデルがCoNLL F1スコア64.6を達成し、新たなベースラインを示した
Citas
"Imagine two newspaper articles about the same event. The articles come from different sources with radically different perspectives and report the event with very different language. They use different action verbs, include ambiguous pronominal references, describe causes differently, and even attribute different intentionality to the event—for example, "Buzina, 45, was shot dead" vs. "He was murdered". An automated system may be unable to identify from the text alone that the two events described are actually the same."
"Purely text-based approaches to CDCR, while built on sophisticated Transformer-based language models (LMs) (Vaswani et al., 2017; Beltagy et al., 2020), are blind to such potentially useful multimodal information. This problem is exacerbated by the relative dearth of multimodal information included in event CDCR corpora."