Die Studie präsentiert ein aufmerksamkeitsbasiertes End-to-End-Netzwerk für die Offline-Schreibererkennung auf Wortebene. Das Netzwerk besteht aus zwei parallelen Kanälen: einem schreiberspezifischen Kanal, der lokale Merkmale auf Zeichen- und Subzeichenebene erfasst, und einem schreibeunabhängigen Kanal, der allgemeine Merkmale extrahiert. Die Merkmale aus beiden Kanälen werden kombiniert und an einen Klassifikationsblock weitergeleitet.
Um die Leistungsfähigkeit des Netzwerks zu verbessern, wird auch ein Aufmerksamkeitsmechanismus untersucht, der die Beziehungen zwischen verschiedenen Segmenten des Eingabebilds erfasst. Die Leistungsfähigkeit des Netzwerks wird auf drei Benchmark-Datensätzen evaluiert, wobei es insbesondere in Szenarien mit begrenzten Schreibproben gute Ergebnisse erzielt.
Die Studie zeigt, dass die Verwendung von Fragmenten aus Wortbildern anstelle ganzer Wortbilder die Leistung des Netzwerks verbessert, da es eine umfassendere Darstellung der Daten ermöglicht. Darüber hinaus erweist sich die Integration des schreibeunabhängigen Moduls als vorteilhaft, da es die Generalisierungsfähigkeit des Netzwerks erhöht.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Vineet Kumar... a las arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07602.pdfConsultas más profundas