Multimodal ArXiv introduces ArXivCap and ArXivQA to improve LVLMs' understanding of scientific figures, enhancing mathematical reasoning capabilities.


coremsg

multimodal-arxiv-enhancing-lvlms-scientific-comprehension-with-arxivcap-and-arxivqa


Multimodal ArXiv: Enhancing LVLMs Scientific Comprehension with ArXivCap and ArXivQA


title_rewrite


The author introduces Multimodal ArXiv, consisting of ArXivCap and ArXivQA, to improve LVLMs' scientific comprehension by providing diverse figure-caption datasets. Fine-tuning on these datasets significantly enhances LVLMs' mathematical reasoning capabilities.


Multimodal-ArXiv-Dataset-for-Enhancing-LVLMs-Scientific-Comprehension


Multimodal ArXiv: Dataset for Enhancing LVLMs' Scientific Comprehension