本論文では、LayoutLLMと呼ばれる大規模言語モデルベースのドキュメント理解手法を提案している。LayoutLLMの核心は、ドキュメントのレイアウト情報の理解と活用を強化するための「レイアウト指示チューニング」戦略である。
レイアウト指示チューニングは2つのステージから構成される:
レイアウト認識事前学習:
レイアウト認識fine-tuning:
実験結果から、LayoutLLMはゼロショット設定でも既存のLLMやMLLMを大幅に上回るパフォーマンスを示すことが確認された。これは、提案手法がドキュメントのレイアウト情報を効果的に学習・活用できることを示している。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Chuwei Luo,Y... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05225.pdfاستفسارات أعمق