本論文では、印刷数式認識のための新しいデータセットとモデルを提案している。
まず、数式の LaTeX 表現の正規化プロセスを開発し、これにより数式の表現ばらつきを低減している。これにより、モデルが数式の本質的な特徴に集中して学習できるようになる。
次に、im2latexv2 データセットを開発した。これは、im2latex-100k データセットを拡張したもので、30種類のフォントを含んでいる。これにより、モデルの汎化性能が向上する。
さらに、実世界の数式を含む realFormula データセットを構築した。これにより、モデルの実用性を評価できる。
最後に、畳み込み Vision Transformer ベースのモデル MathNet を提案した。MathNet は、im2latex-100k、im2latexv2、realFormula、InftyMDB-1 の4つのデータセットで、従来手法を大幅に上回る性能を達成している。
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Felix M. Sch... о arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.13667.pdfГлибші Запити