이 연구는 PDF 문서의 목차 정보를 자동으로 추출하고 구조화하는 혁신적인 AI 기반 기술을 소개합니다. 주요 내용은 다음과 같습니다:
문서 분류 모델: PDF 문서의 각 페이지를 이미지로 변환하고 Donut 모델을 사용하여 목차 페이지를 식별합니다. 또한 GPT-3.5 Turbo를 활용하여 PDF 원문에서 직접 목차 텍스트를 추출할 수 있습니다.
목차 정보 구조화: 목차 페이지에서 heading 번호, heading 제목, subheading 번호, subheading 제목 등의 정보를 추출하여 JSON 형식으로 구조화합니다. Donut 모델과 GPT-3.5 Turbo를 활용하여 각각 82.2%와 89%의 정확도로 목차 정보를 추출할 수 있습니다.
사용자 인터페이스: 추출된 목차 정보를 사용자 친화적인 대시보드에 시각화하여 제공함으로써, 사용자가 문서 내용을 쉽게 탐색할 수 있도록 지원합니다.
이 기술은 방대한 문서에서 핵심 정보를 효율적으로 추출하고 구조화할 수 있어, 다양한 산업 분야에서 문서 이해 및 활용도를 크게 향상시킬 것으로 기대됩니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문