核心概念
科学的な理解を向上させるためのMultimodal ArXivデータセットの導入と実験結果を示す。
要約
Multimodal ArXivは、ArXivCapとArXivQAから構成され、LVLMsの科学的理解を向上させることを目指しています。実験では、ArXivQAでの微調整がLVLMsの数学的推論能力を著しく向上させることが示されています。また、ArXivCapでの4つのビジョン・トゥ・テキストタスクに対する包括的な評価は、LVLMsが科学図表を理解する際の課題を強調し、ドメイン固有のトレーニングによる大幅な改善を示しています。手動エラー分析は、モデルが生成したキャプションに関する洞察を提供しました。
統計
6.4M画像と3.9Mキャプションから構成されるArXivCapデータセット。
572K論文から抽出された6.4M画像と3.9Mキャプション。
数値:10.4%絶対精度向上。
多様な科学領域から抽出された32種類のペーパードメイン。
引用
"Large vision-language models (LVLMs), which integrate large language models (LLMs) with pre-trained vision encoders through cross-modal alignment training, have demonstrated remarkable perceptual and cognitive capabilities in processing concrete images from everyday scenes."
"Fine-tuning on our dataset yields a significant performance boost for this task."
"Our error analysis offers valuable insights for the ongoing development of LVLMs."