本研究では、表の様々なスタイルや複雑な構造、画像の歪みなどの課題に対処するため、DEtection TRansformer (DETR)、CascadeTabNet、PP OCRv2の3つのモデルを統合したTC-OCRパイプラインを提案した。
DETRは表の検出を行い、CascadeTabNetは表の構造認識を行う。PP OCRv2は表内のテキストの検出と認識を行う。これらのモデルを統合することで、表の検出、表構造認識、表内容認識を同時に実現し、表の構造を保持しつつ文書画像から正確にテーブルデータを抽出することができる。
提案手法は、既存手法であるTable Transformerと比較して、IOUが0.96、OCR精度が78%と大幅に向上しており、約25%の精度向上を達成した。また、推論時間も短縮されており、実用的な性能を発揮する。
本研究の成果は、表認識の精度と効率性の向上に貢献し、検索エンジンや知識グラフなどの様々なアプリケーションにおける表情報の活用を促進する。今後は、さらに複雑な表構造への対応や、マルチモーダルな表の理解など、新たな課題に取り組む必要がある。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問