Die Studie präsentiert einen innovativen Ansatz zur Automatisierung der Extraktion und Strukturierung von Inhaltsverzeichnissen (ToCs) aus großen PDF-Dokumenten. Durch den Einsatz von zwei leistungsstarken KI-Modellen, Donut und OpenAI GPT-3.5 Turbo, wird eine bemerkenswerte Genauigkeit von bis zu 89% bei der Erfassung von Überschriftennummern, Überschriftentiteln, Unterüberschriftennummern und Unterüberschriftentiteln erreicht.
Der Prozess beginnt mit der Erfassung der ToCs aus Konstruktionsspezifikationsdokumenten und der anschließenden Strukturierung des ToC-Texts in JSON-Daten. Die extrahierten Informationen werden in einer benutzerfreundlichen Oberfläche visualisiert, um Nutzern einen einfachen Zugriff und ein ganzheitliches Verständnis der Dokumentenstruktur zu ermöglichen. Darüber hinaus werden die strukturierten Daten in einer Datenbank gespeichert, um eine effiziente Indexierung und Durchsuchbarkeit der Dokumente zu gewährleisten.
Die Studie zeigt, wie KI-Technologien wie Donut und GPT-3.5 Turbo die Informationsextraktion aus komplexen Dokumenten revolutionieren können, indem sie manuelle Datenerfassungsaufgaben automatisieren und die Effizienz in verschiedenen Branchen deutlich steigern.
To Another Language
from source content
arxiv.org
Principais Insights Extraídos De
by Degaga Wolde... às arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07553.pdfPerguntas Mais Profundas