核心概念
本稿では、テキストと画像を含む数百ページに及ぶ超長文ドキュメントを理解し、質問応答を行うためのベンチマーク「M-LongDoc」と、検索を考慮した効率的かつ効果的なチューニングフレームワークを提案する。
要約
マルチモーダル超長文理解のためのベンチマーク「M-LongDoc」と検索認識型チューニングフレームワークの紹介
本稿では、近年注目を集めているマルチモーダル文書理解、特に数百ページに及ぶ超長文ドキュメントを対象とした質問応答タスクに関する研究成果が報告されています。
ビジネスインテリジェンス分析や学術文献レビューなど、様々な分野において、長文ドキュメントから必要な情報を効率的に抽出することが求められています。近年、GPT-4Vのような大規模マルチモーダルモデルが、テキスト、画像、構造化データを含む多様な情報を処理・分析できる可能性を示しています。しかし、実際のドキュメントは、その長さ、複雑さ、テキスト、図表、チャートが混在するマルチモーダルな性質から、既存のモデルでは十分な理解が難しいという課題があります。
この課題に対処するため、本稿では、851サンプルで構成される包括的なベンチマーク「M-LongDoc」を提案しています。M-LongDocは、学術、金融、製品の3つのドメインから収集した、平均200ページを超える長文ドキュメントと、それに対する質問応答のデータセットです。既存のデータセットと比較して、M-LongDocはより現実的なシナリオを反映しており、モデルはドキュメント内容の深い理解に基づいた自由回答形式の解答を生成する必要があります。
データ収集
M-LongDocのデータは、公開されている情報源から収集されました。具体的には、学術ドメインは研究論文、金融ドメインは企業レポート、製品ドメインは製品説明書をそれぞれ収集し、データの偏りを最小限に抑えるために、各ドメインから均等にサンプルを抽出しています。
質問生成
質問は、テキスト、表、図のいずれかを対象として、ドキュメントの内容に基づいた多様な質問を生成するために、Claude 3.5、GPT-4o、Gemini 1.5 Proなどの複数の言語モデルを用いて半自動的に生成されました。生成された質問は、自動検証と人手による検証の2段階を経て、その質が保証されています。