Die Studie beschäftigt sich mit der optischen Texterkennung (OCR) für die Sprachen Nepali und Bengalisch. Diese Sprachen haben einzigartige Merkmale wie abhängige Buchstaben, überlappende Zeichen und komplexe Worttrennungen, die die Texterkennung erschweren.
Um diese Herausforderungen zu adressieren, wurde ein transformerbasierter Ansatz verwendet. Das Modell besteht aus einem Encoder zur Merkmalsextraktion aus Bildern und einem Decoder zur Textgenerierung.
Für das Training wurden Datensätze mit handgeschriebenen und gedruckten Texten in Nepali und Bengalisch verwendet. Das Modell erreichte während des Trainings geringe Fehlerraten (Character Error Rate von 0,04 für Bengalisch und 0,09 für Nepali, Word Error Rate von 0,10 für Bengalisch und 0,14 für Nepali).
Bei der Evaluation auf Testdaten zeigte das Modell ebenfalls gute Ergebnisse mit durchschnittlichen Character Error Rates von 0,07 für Bengalisch und 0,11 für Nepali sowie Word Error Rates von 0,12 für Bengalisch und 0,15 für Nepali.
Die Studie zeigt, dass der transformerbasierte Ansatz eine vielversprechende Methode für die optische Texterkennung in Nepali und Bengalisch ist und den Weg für den Einsatz in Anwendungen wie Dokumentdigitalisierung und Textextraktion ebnen kann.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by S M Rakib Ha... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02375.pdfDeeper Inquiries