どうして既存のOCRモデルやデータセットでは化学関連文献から適切にテキスト抽出できないのか？

Question

Accepted Answer

既存のOCRモデルやデータセットが化学関連文献から適切にテキストを抽出できない主な理由は、以下の点にあります。まず、多くのOCRモデルは科学的（たとえば数式）または一般的な印刷された英語テキスト用に訓練されており、両方を含む文書に対応する能力が不足しています。特に化学関連文献では、特殊文字や下付き文字・上付き文字などが頻繁に使用されるため、これらを正確に認識する必要があります。
さらに、従来のオープンソースOCRモデルやデータセットは通常科学的テキストまたは一般的な印刷された英語テキストに焦点を当てており、両者を組み合わせたドメイン内での性能が劣っています。例えば、「Pix2tex」という事前トレーニング済みモデルは数式画像で競争力あるパフォーマンスを発揮しますが、印刷された英語テキストを含む画像ではそれほど優れていません。その他、「Tesseract」も一般的な印刷された英語テキストを抽出する際に利用されますが、科学的テキスト画像上で直接微調整することは難しいです。
さらに、「PEaCE」データセット導入以前はこのような問題点が露呈しておりました。PEaCEはこのような欠陥補完と新しいリソース提供として価値ある貢献です。

PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents

PEaCE

どうして既存のOCRモデルやデータセットでは化学関連文献から適切にテキスト抽出できないのか？

Visualize This Page

Generate with Undetectable AI

Translate to Another Language

Scholar Search

Get PDF Summary in Seconds