초록
この記事は、mPLUG-DocOwl 1.5についての研究を紹介しています。記事は以下の構造で記述されています:
- 背景と目的:文書理解の重要性とMLLMsの課題。
- 統一構造学習:文書、ウェブページ、表、チャート、自然画像など5つのドメインにわたる統一構造学習の提案。
- H-Reducer:ビジョンからテキストへのモジュールによる高解像度画像の効率的な理解。
- モデルアーキテクチャ:DocOwl 1.5の2段階トレーニングフレームワークとマルチタスクファインチューニング。
- DocReason25K:詳細な説明能力をトリガーするための高品質な説明チューニングデータセット。
통계
10 Visual Document Understanding benchmarksでSOTAパフォーマンスを達成