toplogo
Sign In

PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents


Core Concepts
科学文書からテキストを抽出するための適切なOCRモデルが必要であり、PEaCEデータセットはそのニーズに応える。
Abstract
Abstract: OCRは画像内のテキストを識別するタスク。 Nougatは最近リリースされたツールで、学術文書全体にOCRを実行できるが、PubMed論文内の表を解析する際に問題が発生。 PEaCEデータセットは合成および実世界のレコードを含み、transformerベースのOCRモデルの効果を評価。 Introduction: OCRは画像内のテキストを抽出し、科学的文章からテキストを取り出すことが重要。 既存のOCRモデルやデータセットは科学的テキストまたは一般的な印刷英語に焦点を当てている。 Data Extraction: "PEaCE(Printed English and Chemical Equations) dataset" を紹介。 データとコードは https://github.com/ZN1010/PEaCE で利用可能。 Experiments: パッチサイズや多ドメイントレーニングなど様々なアーキテクチャについて実験。 小さなパッチサイズ(10*10)で訓練されたOCR-ViTモデルが最も優れた性能を示す。
Stats
Nan Zhangら:STAPI:Webドキュメントから反復タイトルテキスト構造を自動的に抽出する自動スクレイパー。言語資源と評価会議(LREC)2022年会議論文より。 Blecherら:Nougat:学術文書用ニューラル光理解モデル。arXivプレプリント arXiv:2308.13418より。 Fischerら:Multi-Type-TD-TSR - 文書画像から表を抽出するマルチステージパイプライン。表検出および表構造認識用。
Quotes
"Optical Character Recognition (OCR) is an established task with the objective of identifying the text present in an image." "Nougat, a newly released model, can perform OCR on entire pages of academic documents, including parsing tables." "We propose a novel dataset that contains images of both scientific texts and printed English for training and testing OCR models."

Key Insights Distilled From

by Nan Zhang,Co... at arxiv.org 03-26-2024

https://arxiv.org/pdf/2403.15724.pdf
PEaCE

Deeper Inquiries

どうして既存のOCRモデルやデータセットでは化学関連文献から適切にテキスト抽出できないのか?

既存のOCRモデルやデータセットが化学関連文献から適切にテキストを抽出できない主な理由は、以下の点にあります。まず、多くのOCRモデルは科学的(たとえば数式)または一般的な印刷された英語テキスト用に訓練されており、両方を含む文書に対応する能力が不足しています。特に化学関連文献では、特殊文字や下付き文字・上付き文字などが頻繁に使用されるため、これらを正確に認識する必要があります。 さらに、従来のオープンソースOCRモデルやデータセットは通常科学的テキストまたは一般的な印刷された英語テキストに焦点を当てており、両者を組み合わせたドメイン内での性能が劣っています。例えば、「Pix2tex」という事前トレーニング済みモデルは数式画像で競争力あるパフォーマンスを発揮しますが、印刷された英語テキストを含む画像ではそれほど優れていません。その他、「Tesseract」も一般的な印刷された英語テキストを抽出する際に利用されますが、科学的テキスト画像上で直接微調整することは難しいです。 さらに、「PEaCE」データセット導入以前はこのような問題点が露呈しておりました。PEaCEはこのような欠陥補完と新しいリソース提供として価値ある貢献です。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star