Core Concepts
MathWritingは、手書き数式認識のための最大のデータセットである。230,000件の人手で書かれたサンプルと400,000件の合成サンプルから構成されており、オンラインおよびオフラインの数式認識研究を推進するためのベンチマークを提供する。
Abstract
MathWritingは、手書き数式認識のための最大のデータセットである。230,000件の人手で書かれたサンプルと400,000件の合成サンプルから構成されている。
データセットの作成プロセスは以下の通り:
人手で書かれたサンプルは、Androidアプリを使って収集された。数式のプロンプトが表示され、それをタッチスクリーンやデジタルペンで書いてもらった。
合成サンプルは、LaTeXコンパイラを使って生成された。個別の記号のインクを集めて、LaTeXの式に合成した。
収集したインクには、正規化されたLaTeX表記と元のLaTeX表記の2種類のラベルが付与されている。正規化は、印刷と手書きの違いや、LaTeXの表記の曖昧さを解消するために行われた。
データセットは、学習用、検証用、テスト用の3つのスプリットに分けられている。合成サンプルは主にテスト用に使われる。
MathWritingには以下のような特徴がある:
457,000種類の固有のラベルが含まれており、大規模な表現の多様性を持つ
人手で書かれたサンプルには、同じ式が複数回書かれているものが多数ある
式の長さの中央値は26文字で、一般的な英語認識データセットと同程度
記号の出現頻度は、中括弧が最も多く、次いで上付き文字、下付き文字が多い
収集に使用されたデバイスは150種類以上あり、タッチスクリーンやデジタルペンなど、様々な入力デバイスが含まれる
MathWritingは、オンラインおよびオフラインの数式認識研究を推進するためのベンチマークとして使用できる。既存の数式認識データセットよりも大規模で多様性が高いため、より高度な認識モデルの開発が期待できる。
Stats
手書きサンプルの中央値は、ストローク数14、点数350、書き込み時間6.03秒、アスペクト比3.53である。
合成サンプルのストローク順序は、LaTeXコンパイラの出力に基づいているため、人手で書かれたサンプルとは異なる。