Core Concepts
PDF 그래픽 지침을 활용하여 화학 분자 다이어그램의 시각적 및 화학적 구조를 효율적으로 추출하고 CDXML 형식으로 변환할 수 있는 ChemScraper 시스템을 제안한다.
Abstract
이 논문은 PDF 문서에 포함된 화학 분자 다이어그램을 효율적으로 추출하고 분석하는 ChemScraper 시스템을 소개한다.
ChemScraper는 다음과 같은 주요 단계로 구성된다:
SymbolScraper를 사용하여 PDF 문서에서 문자와 그래픽 객체를 추출한다. 이를 통해 문자, 선, 다각형 등의 그래픽 원시 요소에 대한 정보를 얻을 수 있다.
최소 신장 트리(MST)를 구축하여 그래픽 원시 요소 간의 2차원 이웃 관계를 캡처한다.
일련의 그래프 변환 규칙을 적용하여 MST를 시각적 그래프로 변환한다. 이 과정에서 문자 그룹 병합, 평행선 병합, 결합 유형 식별 등의 작업이 수행된다.
시각적 그래프를 화학 구조 그래프로 변환한다. 이를 통해 원자, 결합, 브래킷 구조 등을 식별할 수 있다.
최종적으로 CDXML 형식으로 출력하여 시각적 및 화학적 구조 정보를 인코딩한다.
이 시스템은 GPU, OCR, 벡터화 없이도 빠르고 정확한 분자 다이어그램 파싱이 가능하다. 또한 시각적 파서 학습을 위한 고품질 주석 데이터 생성에도 활용될 수 있다.
Stats
PDF 그래픽 지침을 직접 활용하여 문자, 선, 다각형 등의 그래픽 원시 요소 정보를 추출할 수 있다.
최소 신장 트리(MST)를 구축하여 그래픽 원시 요소 간의 2차원 이웃 관계를 캡처할 수 있다.
일련의 그래프 변환 규칙을 통해 시각적 그래프를 화학 구조 그래프로 변환할 수 있다.
CDXML 형식으로 출력하여 시각적 및 화학적 구조 정보를 인코딩할 수 있다.
Quotes
"PDF 그래픽 지침을 직접 활용하여 문자, 선, 다각형 등의 그래픽 원시 요소 정보를 추출할 수 있다."
"일련의 그래프 변환 규칙을 통해 시각적 그래프를 화학 구조 그래프로 변환할 수 있다."
"CDXML 형식으로 출력하여 시각적 및 화학적 구조 정보를 인코딩할 수 있다."