本文提出了一個名為UKnow的統一知識協議,以數據的角度促進知識型研究。UKnow將數據知識分為五種單元類型:圖像內(in-image)、文本內(in-text)、圖像間(cross-image)、文本間(cross-text)和圖像-文本(image-text)。作者建立了一個高效的管道,可以從任何數據集合中構建多模態知識圖。
根據UKnow協議,作者從公共國際新聞中收集了一個大規模的多模態知識圖數據集,包含1,388,568個節點(其中571,791個與視覺相關)和3,673,817個三元組。該數據集還附有豐富的事件標籤,包括11個粗粒度標籤和9,185個細粒度標籤。
實驗表明,UKnow在支持常識推理和提升視覺語言預訓練方面具有優勢,得益於其統一的知識組織形式。作者實現了常識推理任務中的Q2B和BETAE模型,在驗證集和測試集上分別達到了21.64%和21.23%的平均MRR。此外,作者還驗證了UKnow在多模態事件分類、單模態和跨模態檢索以及視覺任務遷移等任務上的優秀性能。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询