本研究では、視覚と言語のモダリティに焦点を当てた統一的な知識プロトコル「UKnow」を提案しています。UKnowは、データ知識を5つのユニットタイプ(in-image、in-text、cross-image、cross-text、image-text)に分類し、効率的なパイプラインを設定して、任意のデータコレクションからマルチモーダル知識グラフを構築することができます。
UKnowに従って、公開国際ニュースから大規模なマルチモーダル知識グラフデータセットを収集しました。このデータセットには1,388,568個のノードと3,673,817個のトリプレットが含まれており、11の粗いラベルと9,185の細かいラベルの豊富なイベントタグが付与されています。
4つのベンチマークでの実験により、単一のデータセットでの推論とビジョン-言語プリトレーニングの両方を支援できることが示されました。これは、UKnowの統一的な知識組織形式によるものです。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Biao Gong, S... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2302.06891.pdfГлибші Запити