Conceptos Básicos
Language models and transformers play a significant role in advancing form understanding in scanned documents.
Resumen
この論文は、スキャンされた文書の形式理解における言語モデルとトランスフォーマーの重要性を強調し、最新の進歩や手法に焦点を当てています。研究方法論は、過去10年間のトレンドを理解するために人気のある文書やフォームを詳細に分析しています。Transformerモデルがどのように分野を前進させ、フォーム理解技術を革新しているかが示されています。また、ノイズの多いスキャンされた文書の複雑さに対処するために設計された最先端の言語モデルも包括的に検討されています。
Estadísticas
RVL-CDIPデータセットは400,000枚のグレースケール画像で構成されており、16クラスに分類されている。
FUNSDデータセットは199種類の完全注釈付きフォームからなり、9,707個の意味エンティティと5,304個の関係が含まれている。
XFUNDデータセットは7つの異なる言語で199種類ずつ(合計1,393)用意されており、各言語ごとにトレーニング/テスト用ドキュメントが149/50個含まれている。