Core Concepts
ベトナム語のテキストを含む画像に対する視覚質問応答を解決するための新しいデータセットとアプローチを提案する。
Abstract
本論文では、ベトナム語のテキストを含む画像に対する視覚質問応答(OCR-VQA)タスクに取り組むための新しいデータセットであるViOCRVQAを紹介する。このデータセットには28,000枚以上の画像と120,000以上の質問-回答ペアが含まれている。
データセットの構築プロセスでは、10人のベトナム語ネイティブスピーカーが300以上の多様な質問を作成し、自動的に画像のメタデータと組み合わせることで、質問-回答ペアを生成した。
データセットの分析から、オブジェクトと画像内のテキストの関係が重要であることが明らかになった。そこで、著者らは新しい手法であるVisionReaderを提案した。VisionReaderは、オブジェクト特徴、OCR特徴、グリッド特徴、テキスト特徴を統合し、ViT5やBARTphoなどの強力な言語モデルを用いて、OCR-VQAタスクを解決する。
実験の結果、VisionReaderはベースラインモデルを大きく上回る性能を示し、EM 41.16%、F1スコア 69.90%を達成した。これは、OCR精度とオブジェクト情報の統合が重要であることを示唆している。さらに、ジャンル予測の実験からも、VisionReaderの有効性が確認された。
Stats
画像内のテキストの75%以上が正しく検出された場合、VQAモデルの性能が大幅に向上する
画像内のテキストが完全に検出された場合でも、EMは55%、F1スコアは80%程度にとどまる
Quotes
"OCR-VQAタスクにおいて、OCRシステムの性能が非常に重要な役割を果たす"
"オブジェクトの情報も、VQAモデルの性能向上に寄与する"