Core Concepts
LVLMsの文書理解性能を向上させるために、DoCoが細かい特徴を抽出し、テキスト豊富なシナリオでの視覚表現を強化する。
Abstract
最近、大規模ビジュアル-言語モデル(LVLMs)が注目されており、特に視覚文書理解(VDU)分野で重要性が高まっています。しかし、LVLMsコミュニティ内では細かい特徴の重要性が未だ十分に探求されておらず、テキスト豊富なシナリオでのパフォーマンスが低下しています。この論文では、このギャップを埋めるために、VDU用のDownstreamタスクに特化したコントラスティブ学習フレームワーク「Document Object COntrastive learning(DoCo)」を提案しています。DoCoは補助的なマルチモーダルエンコーダーを活用してドキュメントオブジェクトの特徴を取得し、それらをLVLMのビジョンエンコーダーが生成するビジュアル特徴と整合させます。これにより、画像全体的な表現とドキュメントオブジェクトのマルチモーダル細かい特徴との対比学習は、ビジョンエンコーダーがより効果的なビジュアル手掛かりを取得し、LVLM内でテキスト豊富なドキュメントの理解力を高めることができます。
Stats
LVLMs equipped with DoCo: 64.4% performance enhancement on DocVQA dataset.
Pre-training datasets: Approximately 1.0 million image-text pairs used for richness of text.
Fine-tuning datasets: Utilized TextVQA, DocVQA, ChartQA, OCRVQA, InfoVQA, KLC, WTQ, and TextCaps datasets.
Experimental settings: Batch size of 640 for pre-training and 256 for fine-tuning over multiple epochs.
Quotes
"Nevertheless, the importance of fine-grained features remains largely unexplored within the community of LVLMs."
"We propose a contrastive learning framework specifically tailored for the downstream tasks of VDU."
"DoCo can represent that the contrastive learning between visual holistic representations and multimodal fine-grained features can assist the vision encoder in acquiring more effective visual cues."