핵심 개념
大規模言語モデルを用いたドキュメント理解において、ドキュメントのレイアウト情報を効果的に活用することで、ゼロショット設定でも高精度なパフォーマンスを実現する。
초록
本論文では、LayoutLLMと呼ばれる大規模言語モデルベースのドキュメント理解手法を提案している。LayoutLLMの核心は、ドキュメントのレイアウト情報の理解と活用を強化するための「レイアウト指示チューニング」戦略である。
レイアウト指示チューニングは2つのステージから構成される:
-
レイアウト認識事前学習:
- ドキュメントレベル、領域レベル、セグメントレベルの3つのタスクを統一的な指示形式で学習することで、ドキュメントの全体的な理解から局所的な理解まで、階層的にレイアウト情報を学習する。
- ドキュメントの詳細な説明生成、テキストとレイアウトの再構成、ドキュメントレイアウト分析、テーブル理解、マスクテキスト生成、位置情報復元、幾何学的レイアウト理解などのタスクを含む。
-
レイアウト認識fine-tuning:
- 提案するLayoutCoTモジュールにより、質問分析、関連領域特定、答案生成の3ステップを経て、レイアウト情報を活用しながら正確な答案を生成する。
- LayoutCoTにより、答案生成過程の解釈性が向上し、人間による修正が容易になる。
実験結果から、LayoutLLMはゼロショット設定でも既存のLLMやMLLMを大幅に上回るパフォーマンスを示すことが確認された。これは、提案手法がドキュメントのレイアウト情報を効果的に学習・活用できることを示している。
통계
ドキュメントの詳細な説明には平均373.25単語が使用される。
テーブルには平均14行9列のデータが含まれる。