이 논문은 문서 이미지 분석을 위한 새로운 접근법인 LayoutLLM을 제안한다. LayoutLLM은 문서 이미지의 시각적, 레이아웃, 텍스트 정보를 모두 활용하는 기존 문서 이해 모델과 대규모 언어 모델(LLM)을 결합한 모델이다.
기존 문서 이해 모델은 각 작업과 데이터셋에 맞춰 fine-tuning이 필요하여 복잡하고 비용이 많이 드는 단점이 있었다. 이에 반해 LayoutLLM은 단일 모델로 다양한 문서 분석 작업을 수행할 수 있다.
구체적으로 LayoutLLM은 LayoutLMv3 모델을 인코더로, Llama 모델을 디코더로 사용한다. 인코더는 문서 이미지의 시각적, 레이아웃 정보를 처리하고, 디코더는 LLM의 언어 이해 능력을 활용하여 문서 이미지에 대한 이해와 분석을 수행한다.
실험 결과, LayoutLLM은 문서 분류, 정보 추출, 문서 시각 질문 답변 등 다양한 문서 분석 작업에서 기존 최신 모델들을 능가하는 성능을 보였다. 또한 NLP 작업 수행에서도 개선된 성능을 보였다.
이를 통해 LayoutLLM이 문서 이해와 분석을 위한 유연하고 효율적인 프레임워크임을 확인할 수 있다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Masato Fujit... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14252.pdfاستفسارات أعمق