이 논문은 문서 구조 추출(DSE)을 현실적이고 종합적인 작업으로 정의하는 READOC 벤치마크를 소개한다. READOC은 다양한 실제 문서(arXiv 논문, GitHub README)를 PDF와 Markdown 쌍으로 구축하여, 문서의 레이아웃, 텍스트, 수식, 표 등 다양한 요소를 종합적으로 추출하는 작업을 평가한다. 이를 위해 READOC은 표준화, 분할, 평가 모듈로 구성된 통합 평가 S3uite를 제안한다. 다양한 DSE 시스템(파이프라인 도구, 전문가 모델, 범용 VLM)을 평가한 결과, 현실적인 DSE 목표와 현재 연구 수준 간의 격차를 확인했다. 이를 통해 READOC이 DSE 연구를 촉발하고 보다 포괄적이고 실용적인 솔루션을 이끌어낼 것으로 기대된다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問