핵심 개념
Collage는 과학 PDF 문서에서 정보 추출 모델을 빠르게 프로토타입하고, 시각화하고, 평가할 수 있는 도구로, 다양한 모델을 비교하고, 처리 과정을 단계별로 검토하여 모델의 이해와 디버깅을 돕는 것을 목표로 한다.
초록
Collage: 과학 PDF 정보 추출 도구
본 논문은 과학 PDF 문서에서 정보 추출 모델을 위한 신속한 프로토타이핑, 비교 및 평가를 용이하게 하는 도구인 Collage를 소개한다. Collage는 특히 재료 과학 분야를 중심으로, 다양한 정보 추출 모델을 평가하고자 하는 재료 과학자들을 위해 개발되었다.
Collage는 여러 분야의 전문가 15명과의 인터뷰를 통해 도출된 요구 사항을 기반으로 개발되었다. 특히 재료 과학자 9명의 문헌 검토 과정에 대한 인터뷰 응답에서 일관되게 나타난 세 가지 주요 주제는 다음과 같다.
다양한 관심 분야
인터뷰 참가자들은 매우 유사한 분야의 과학자들 사이에서도 논문을 읽고 관련성을 평가할 때 중점을 두는 부분이 매우 다양하다는 것을 보여주었다.
표에 포함된 정보의 중요성
많은 참가자가 문서 텍스트뿐만 아니라 표에 제공된 정보에 크게 의존한다고 언급했다.
오래된 문서의 처리 문제
참가자들은 1950년대부터 1970년대까지의 기술 보고서와 같이 광범위한 기간의 문서를 정기적으로 검토해야 한다고 언급했다. 이러한 보고서는 현재 디지털화되었지만 OCR 정확도가 낮고, 스캔 이미지에 노이즈가 많으며, 레이아웃이 표준화되지 않아 최신 처리 도구에 대한 접근성이 떨어지는 경우가 많다.
Collage는 PDF 표현, 모델링, 시각화 프론트엔드의 세 부분으로 구성된다.
PDF 표현
다중 모드 PDF 콘텐츠 처리를 위한 추상화 집합을 제공하는 PaperMage 라이브러리를 기반으로 구축되었다. Collage는 PaperMage의 CoreRecipe 파이프라인을 기반으로 시각적 및 텍스트 요소를 식별하고, Grobid 기반 파서를 사용하여 의미론적 단락 그룹화를 통해 문서 섹션별로 처리 및 결과를 분할한다. 또한, 과학 문서의 텍스트 분할 문제를 해결하기 위해 PySBD 기반의 PaperMage의 기본 분할기를 SciBERT 기반 SciSpaCy 파이프라인으로 대체한다.
모델링 및 소프트웨어 인터페이스
정보 추출 도구의 손쉬운 구현을 위해 세 가지 유형의 주석을 표준화하는 공통 인터페이스를 정의한다.
토큰 분류 인터페이스: 텍스트에서 범위 주석을 생성하는 모델(예: NER, 이벤트 추출 모델)을 위한 인터페이스
텍스트 생성 인터페이스: 텍스트-텍스트 예측을 위한 인터페이스(예: LLM)
이미지 예측 인터페이스: 표 및 차트와 같은 이미지를 분석하는 모델을 위한 인터페이스
시각화 프론트엔드
Streamlit을 사용하여 구축된 대화형 도구로, 사용자는 PDF를 업로드하고, 처리 파이프라인을 정의하고, 각 단계에서 파이프라인 결과를 검사할 수 있다.
파일 업로드 및 처리: 사용자가 파일을 업로드하고, 적용할 처리 파이프라인을 정의할 수 있다.
파일 개요: 문서에서 추출된 상위 수준 정보를 표시한다.
주석: 사용자가 PDF 컨텍스트에서 모델 결과를 비교할 수 있다.
표현 검사: 사용자가 선택할 수 있는 다운스트림 처리에 사용할 수 있는 PDF 표현의 시각화를 제공한다.