Core Concepts
MathWriting은 현재 가장 큰 온라인 필기 수학 수식 데이터셋으로, 23만 개의 사람이 작성한 샘플과 40만 개의 합성 샘플로 구성되어 있습니다. 이 데이터셋은 온라인 및 오프라인 필기 수학 수식 인식 연구를 발전시키기 위한 벤치마크로 사용될 수 있습니다.
Abstract
MathWriting은 현재 가장 큰 온라인 필기 수학 수식 데이터셋입니다. 이 데이터셋은 총 65만 개의 샘플로 구성되어 있으며, 이 중 23만 개는 사람이 직접 작성한 것이고 40만 개는 합성된 것입니다.
데이터셋은 학습, 검증, 테스트 세트로 나뉘어 있으며, 각 세트에는 다양한 수학 기호와 구조가 포함되어 있습니다. 모든 샘플에는 정규화된 LaTeX 표기법으로 된 정답 레이블이 제공됩니다.
이 데이터셋은 온라인 및 오프라인 필기 수학 수식 인식 연구를 발전시키기 위한 벤치마크로 사용될 수 있습니다. 기존 모델들을 이 데이터셋으로 평가한 결과, 이미지 기반 모델보다 시간 정보를 활용하는 모델이 더 좋은 성능을 보였습니다. 이는 필기 수학 수식 인식에서 시간 정보가 중요한 역할을 한다는 것을 보여줍니다.
Stats
필기 수식의 평균 길이는 26자로, 기존 영어 필기 인식 데이터셋 IAMonDB의 평균 길이 29자와 유사합니다.
필기 수식의 평균 토큰 길이는 17개로, 토큰 기반 모델 학습이 문자 기반 모델보다 용이할 것으로 예상됩니다.
가장 빈번한 토큰은 { 와 }로, LaTeX 문법에서 중요한 역할을 합니다.
Quotes
"MathWriting은 현재 가장 큰 온라인 필기 수학 수식 데이터셋입니다."
"이 데이터셋은 온라인 및 오프라인 필기 수학 수식 인식 연구를 발전시키기 위한 벤치마크로 사용될 수 있습니다."