이 논문은 화학 논문의 텍스트를 정확하게 추출하기 위한 PEaCE 데이터셋을 소개한다. PEaCE 데이터셋은 합성 데이터와 실제 데이터로 구성되어 있다.
합성 데이터는 다음과 같이 구성된다:
실제 데이터는 화학 논문에서 추출한 319개의 테이블 셀 이미지로 구성된다. 실제 데이터에는 합성 데이터에 없는 왜곡 및 잡음이 포함되어 있다. 이를 모방하기 위해 3가지 변환 기법(픽셀화, 굵게 하기, 여백 추가)을 제안한다.
다양한 실험을 통해 다음을 확인했다:
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Nan Zhang,Co... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.15724.pdfDeeper Inquiries