Die Studie präsentiert ein aufmerksamkeitsbasiertes End-to-End-Netzwerk für die Offline-Schreibererkennung auf Wortebene. Das Netzwerk besteht aus zwei parallelen Kanälen: einem schreiberspezifischen Kanal, der lokale Merkmale auf Zeichen- und Subzeichenebene erfasst, und einem schreibeunabhängigen Kanal, der allgemeine Merkmale extrahiert. Die Merkmale aus beiden Kanälen werden kombiniert und an einen Klassifikationsblock weitergeleitet.
Um die Leistungsfähigkeit des Netzwerks zu verbessern, wird auch ein Aufmerksamkeitsmechanismus untersucht, der die Beziehungen zwischen verschiedenen Segmenten des Eingabebilds erfasst. Die Leistungsfähigkeit des Netzwerks wird auf drei Benchmark-Datensätzen evaluiert, wobei es insbesondere in Szenarien mit begrenzten Schreibproben gute Ergebnisse erzielt.
Die Studie zeigt, dass die Verwendung von Fragmenten aus Wortbildern anstelle ganzer Wortbilder die Leistung des Netzwerks verbessert, da es eine umfassendere Darstellung der Daten ermöglicht. Darüber hinaus erweist sich die Integration des schreibeunabhängigen Moduls als vorteilhaft, da es die Generalisierungsfähigkeit des Netzwerks erhöht.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Vineet Kumar... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07602.pdfDeeper Inquiries