本論文では、LayoutLLMと呼ばれる大規模言語モデルベースのドキュメント理解手法を提案している。LayoutLLMの核心は、ドキュメントのレイアウト情報の理解と活用を強化するための「レイアウト指示チューニング」戦略である。
レイアウト指示チューニングは2つのステージから構成される:
レイアウト認識事前学習:
レイアウト認識fine-tuning:
実験結果から、LayoutLLMはゼロショット設定でも既存のLLMやMLLMを大幅に上回るパフォーマンスを示すことが確認された。これは、提案手法がドキュメントのレイアウト情報を効果的に学習・活用できることを示している。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Chuwei Luo,Y... о arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05225.pdfГлибші Запити