本研究では、視覚と言語のモダリティに焦点を当てた統一的な知識プロトコル「UKnow」を提案しています。UKnowは、データ知識を5つのユニットタイプ(in-image、in-text、cross-image、cross-text、image-text)に分類し、効率的なパイプラインを設定して、任意のデータコレクションからマルチモーダル知識グラフを構築することができます。
UKnowに従って、公開国際ニュースから大規模なマルチモーダル知識グラフデータセットを収集しました。このデータセットには1,388,568個のノードと3,673,817個のトリプレットが含まれており、11の粗いラベルと9,185の細かいラベルの豊富なイベントタグが付与されています。
4つのベンチマークでの実験により、単一のデータセットでの推論とビジョン-言語プリトレーニングの両方を支援できることが示されました。これは、UKnowの統一的な知識組織形式によるものです。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések