핵심 개념
PEaCE 데이터셋은 화학 논문의 텍스트를 정확하게 추출하기 위해 합성 및 실제 데이터를 포함하며, 변환 기법을 통해 실제 데이터의 특성을 모방한다.
초록
이 논문은 화학 논문의 텍스트를 정확하게 추출하기 위한 PEaCE 데이터셋을 소개한다. PEaCE 데이터셋은 합성 데이터와 실제 데이터로 구성되어 있다.
합성 데이터는 다음과 같이 구성된다:
- 100만 개의 일반 영어 텍스트 이미지
- 10만 개의 수치 이미지
- 10만 개의 (유사) 화학 방정식 이미지
실제 데이터는 화학 논문에서 추출한 319개의 테이블 셀 이미지로 구성된다. 실제 데이터에는 합성 데이터에 없는 왜곡 및 잡음이 포함되어 있다. 이를 모방하기 위해 3가지 변환 기법(픽셀화, 굵게 하기, 여백 추가)을 제안한다.
다양한 실험을 통해 다음을 확인했다:
- 패치 크기가 작을수록 성능이 향상된다.
- 다중 도메인 학습(im2latex-100k와 PEaCE)이 단일 도메인 학습보다 성능이 좋다.
- 제안한 변환 기법은 실제 데이터 성능을 향상시킨다.
통계
화학 논문에서 추출한 319개 테이블 셀 이미지의 총 문자 수는 5,286개이다.
이미지에 포함된 고유 문자 수는 101개이다.
각 이미지의 평균 문자 수는 16.57개이다.