本研究では、視覚と言語のモダリティに焦点を当てた統一的な知識プロトコル「UKnow」を提案し、公開国際ニュースから大規模なマルチモーダル知識グラフデータセットを構築しました。このデータセットは、推論とビジョン-言語プリトレーニングなどの知識ベースの研究に活用できます。