核心概念
本論文では、画像内の視覚テキストエンティティを知識ベースにリンクし、その知識を活用して質問応答を行うことで、テキストベースの知識型視覚質問応答(Text-KVQA)の精度を大幅に向上させることができることを示している。
要約
視覚テキストエンティティ知識対応の大規模マルチモーダルアシスタントによるテキストKVQAの改善
Penamakuri, A. S., & Mishra, A. (2024). Visual Text Matters: Improving Text-KVQA with Visual Text Entity Knowledge-aware Large Multimodal Assistant. arXiv preprint arXiv:2410.19144v1.
本研究は、画像内の視覚テキストエンティティに関する知識を活用して、テキストベースの知識型視覚質問応答(Text-KVQA)の精度を向上させることを目的とする。