マルチモーダル知識グラフ(MMKG)の表現学習において、関係性に応じた適応的なマルチモーダル知識専門家を活用することで、より高品質なエンティティ表現を学習できる。
本研究では、視覚と言語のモダリティに焦点を当てた統一的な知識プロトコル「UKnow」を提案し、公開国際ニュースから大規模なマルチモーダル知識グラフデータセットを構築しました。このデータセットは、推論とビジョン-言語プリトレーニングなどの知識ベースの研究に活用できます。
マルチモーダル知識グラフの不完全性を克服するために、細粒度のモダリティ情報トークンを活用し、モダリティ間の相互作用を学習することで、より高度な知識推論を実現する。
マルチモーダル情報を活用して、新しく発見された関係の表現を学習する。