本研究は、視覚的情報と言語的情報を統合的に活用することで、文書間イベントコリファレンス解決の精度を向上させる手法を提案する。特に、言語モデルと視覚モデルの間の線形意味転移を活用し、難易度の異なるイベントペアに適切なモデルを適用するアンサンブル手法を開発した。