Core Concepts
表構造と文字認識のタスクを同時に学習する際に、隣接する細胞の情報を活用し、双方向の相互学習を行うことで、高精度な表認識を実現する。
Abstract
本論文では、表構造と文字認識のタスクを同時に学習するエンドツーエンドのモデルを提案している。
提案手法の特徴は以下の2点:
多細胞デコーダー
従来の手法では各細胞の文字認識を独立に行っていたが、提案手法では隣接する細胞の情報を活用する多細胞デコーダーを導入した。
これにより、周辺の細胞情報を参照しながら文字認識を行うことができる。
双方向の相互学習
表構造を左から右へ、および右から左へ認識する2つのデコーダーを同時に学習する双方向の相互学習を提案した。
これにより、前後の文脈情報を考慮しながら表構造を認識できる。
実験では、大規模な2つのデータセットで提案手法の有効性を示した。提案手法は、外部の光学文字認識システムを使用した従来手法と同等以上の性能を達成した。特に、長い表を含む複雑なデータセットにおいて優れた性能を発揮した。
Stats
表構造認識の精度(TEDS)は98.87%、文字認識を含む全体の精度は97.69%であった。
複雑な表に対する精度は95.53%であった。
Quotes
"表構造と文字認識のタスクを同時に学習する際に、隣接する細胞の情報を活用し、双方向の相互学習を行うことで、高精度な表認識を実現する。"
"提案手法は、外部の光学文字認識システムを使用した従来手法と同等以上の性能を達成した。特に、長い表を含む複雑なデータセットにおいて優れた性能を発揮した。"