本論文では、マルチページ文書の視覚的質問応答(MP-DocVQA)タスクに対する新しい手法を提案している。
まず、単一ページの文書VQAモデルとして、Pix2Struct-Baseを使用する。このモデルは、質問と文書ページを視覚的に表現し、それらの統一的な特徴表現を学習する。
次に、提案手法では、自己注意スコアリングモジュールを導入する。このモジュールは、質問と各ページの関連性を評価し、最も関連性の高いページを選択する。これにより、GPU資源の制限なしにマルチページ文書VQAタスクに適用できる。
効率的な学習のために、正例ページと1つのランダムに選択された負例ページのみを使用して、自己注意スコアリングモジュールを学習する。
実験では、提案手法がOCR情報を必要とせずに、MP-DocVQAデータセットの状態の最良を達成することを示している。さらに、最大793ページまでの長い文書に対しても良好な性能を維持することができる。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Lei ... lúc arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19024.pdfYêu cầu sâu hơn